Een van de kerntaken van het Instituut voor de Nederlandse Taal is het bouwen van lexica. Daarvoor ontwikkelen we structuren, strategieën en tools. Die vormen de basis voor een goed opgezet lexicon van historisch of modern Nederlands. Daarnaast maken we programmatuur die een lexicon kan verrijken met de morfologische kenmerken van woorden.
Categorie: Corpora & lexica
Brieven als Buit
Het corpus Brieven als Buit (origineel) bevat 1.000 Sailing Letters: Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw van en aan het thuisfront, die zijn buitgemaakt door kapers en in Britse archieven zijn bewaard. De teksten in het corpus zijn aangevuld met taalkundige informatie. Brieven als Buit-2 is een aanvulling op het originele corpus en bevat ruim 1.300 Sailing Letters. Deze teksten zijn niet taalkundig verrijkt maar wel voorzien van metadata.
IMPACT-lexica
IMPACT was een Europees project dat was opgezet om historische teksten online toegankelijker te maken. Er zijn daarbij diverse lexica tot stand gekomen, bedoeld om in te kunnen zetten voor OCR, OCR-postcorrectie en betere zoekmogelijkheden in teksten.
PAROLE-lexicon
Het PAROLE-lexicon is een computationeel lexicon met modern Nederlands taalmateriaal van ongeveer 1970-1998. Het bevat ruim 20.000 entry’s, die voorzien zijn van woordsoort, getal, naamval en gebruik in de zin. Het lexicon is onderdeel van een project voor basiscorpora en -lexica voor alle Europese talen.
DiaMaNT
DiaMaNT staat voor Diachroon seMantisch lexicon van de Nederlandse Taal. Het is een computationeel semantisch lexicon in ontwikkeling, dat betekenisinformatie over woorden door de tijd heen moet bieden. DiaMaNT legt verbanden tussen woordvormen en betekeniseenheden (concepten), en plaatst ze in de tijd.
GiGaNT
GiGaNT staat voor Groot Geïntegreerd Lexicon van de Nederlandse Taal. Het is een computationeel lexicon in ontwikkeling van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon vormt straks een verzameling van woorden en woordgroepen in alle mogelijke spelling- en vormvarianten. Het biedt bij elk woord veel extra taalkundige informatie.
Nederlab
Nederlab is een webinterface die onderzoekers in staat stelt verspreide digitale historische corpora als eenheid te doorzoeken en te analyseren; dit geldt zowel voor de teksten zelf als voor de metadata.
Eindhoven-corpus
Het Eindhoven-corpus is een verzameling Nederlandstalige geschreven en (uitgeschreven) gesproken teksten uit de periode van 1960 tot 1976. Het bevat materiaal uit kranten en tijdschriften en correspondentie tussen de regering en de Staten-Generaal, en diverse gesproken bronnen. Het is in diverse fases verbeterd en inmiddels bruikbaar gemaakt in een hedendaagse corpusapplicatie.
Corpus Middelnederlands
Het Corpus Middelnederlands is een verzameling van ruim 350 Middelnederlandse rijm- en prozateksten uit de periode 1300-1550. Het corpus bevat veel literair materiaal, waaronder de Beatrijs en de Reynaert.
Corpus Gysseling
Het Corpus Gysseling is een verzameling 13e-eeuwse Middelnederlandse teksten. Het zijn voornamelijk ambtelijke en literaire teksten die gebruikt zijn als bronnenmateriaal voor het Vroegmiddelnederlands Woordenboek (VMNW). De teksten in het corpus zijn aangevuld met taalkundige informatie.
Corpus Oudnederlands
Het Corpus Oudnederlands is een verzameling van al het bekende Nederlandse woordmateriaal uit de periode 475-1200. Het bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en een aantal kleinere teksten, fragmenten, losse woorden en plaatsnamen. Het corpus is taalkundig verrijkt met woordsoort en lemma, en is gebruikt als bronnenmateriaal voor het Oudnederlands Woordenboek (ONW).
Corpus Hedendaags Nederlands
Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 800.000 teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal. Het corpus is automatisch aangevuld met taalkundige informatie zoals woordsoort en lemma.
Computationele lexica
Computationele lexica zijn gestructureerde datasets met woorden en taalkundige informatie over die woorden (woordsoort, uitspraak, betekenis, etc.), bedoeld om door een computerprogramma gebruikt te worden. De INT-lexica zijn GiGaNT, DiaMaNT, de IMPACT-lexica en het PAROLE-lexicon.