Categorieën
Corpora & lexica

Structuren, strategieën en tools voor lexiconbouw

Een van de kerntaken van het Instituut voor de Nederlandse Taal is het bouwen van lexica. Daarvoor ontwikkelen we structuren, strategieën en tools. Die vormen de basis voor een goed opgezet lexicon van historisch of modern Nederlands. Daarnaast maken we programmatuur die een lexicon kan verrijken met de morfologische kenmerken van woorden.

Categorieën
Corpora & lexica

Brieven als Buit

Het corpus Brieven als Buit (origineel) bevat 1.000 Sailing Letters: Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw van en aan het thuisfront, die zijn buitgemaakt door kapers en in Britse archieven zijn bewaard. De teksten in het corpus zijn aangevuld met taalkundige informatie. Brieven als Buit-2 is een aanvulling op het originele corpus en bevat ruim 1.300 Sailing Letters. Deze teksten zijn niet taalkundig verrijkt maar wel voorzien van metadata.

Categorieën
Corpora & lexica

IMPACT-lexica

IMPACT was een Europees project dat was opgezet om historische teksten online toegankelijker te maken. Er zijn daarbij diverse lexica tot stand gekomen, bedoeld om in te kunnen zetten voor OCR, OCR-postcorrectie en betere zoekmogelijkheden in teksten.

Categorieën
Corpora & lexica

PAROLE-lexicon

Het PAROLE-lexicon is een computationeel lexicon met modern Nederlands taalmateriaal van ongeveer 1970-1998. Het bevat ruim 20.000 entry’s, die voorzien zijn van woordsoort, getal, naamval en gebruik in de zin. Het lexicon is onderdeel van een project voor basiscorpora en -lexica voor alle Europese talen.

Categorieën
Corpora & lexica

DiaMaNT

DiaMaNT staat voor Diachroon seMantisch lexicon van de Nederlandse Taal. Het is een computationeel semantisch lexicon in ontwikkeling, dat betekenisinformatie over woorden door de tijd heen moet bieden. DiaMaNT legt verbanden tussen woordvormen en betekeniseenheden (concepten), en plaatst ze in de tijd.

Categorieën
Corpora & lexica

GiGaNT

GiGaNT staat voor Groot Geïntegreerd Lexicon van de Nederlandse Taal. Het is een computationeel lexicon in ontwikkeling van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon vormt straks een verzameling van woorden en woordgroepen in alle mogelijke spelling- en vormvarianten. Het biedt bij elk woord veel extra taalkundige informatie.

Categorieën
Corpora & lexica

Nederlab

Nederlab is een webinterface die onderzoekers in staat stelt verspreide digitale historische corpora als eenheid te doorzoeken en te analyseren; dit geldt zowel voor de teksten zelf als voor de metadata.

Categorieën
Corpora & lexica

Eindhoven-corpus

Het Eindhoven-corpus is een verzameling Nederlandstalige geschreven en (uitgeschreven) gesproken teksten uit de periode van 1960 tot 1976. Het bevat materiaal uit kranten en tijdschriften en correspondentie tussen de regering en de Staten-Generaal, en diverse gesproken bronnen. Het is in diverse fases verbeterd en inmiddels bruikbaar gemaakt in een hedendaagse corpusapplicatie.

Categorieën
Corpora & lexica

Corpus Middel­nederlands

Het Corpus Middelnederlands is een verzameling van ruim 350 Middelnederlandse rijm- en prozateksten uit de periode 1300-1550. Het corpus bevat veel literair materiaal, waaronder de Beatrijs en de Reynaert.

Categorieën
Corpora & lexica

Corpus Gysseling

Het Corpus Gysseling is een verzameling 13e-eeuwse Middelnederlandse teksten. Het zijn voornamelijk ambtelijke en literaire teksten die gebruikt zijn als bronnenmateriaal voor het Vroegmiddelnederlands Woordenboek (VMNW). De teksten in het corpus zijn aangevuld met taalkundige informatie.

Categorieën
Corpora & lexica

Corpus Oudnederlands

Het Corpus Oudnederlands is een verzameling van al het bekende Nederlandse woordmateriaal uit de periode 475-1200. Het bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en een aantal kleinere teksten, fragmenten, losse woorden en plaatsnamen. Het corpus is taalkundig verrijkt met woordsoort en lemma, en is gebruikt als bronnenmateriaal voor het Oudnederlands Woordenboek (ONW).

Categorieën
Corpora & lexica

Corpus Hedendaags Nederlands

Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 800.000 teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal. Het corpus is automatisch aangevuld met taalkundige informatie zoals woordsoort en lemma.

Categorieën
Corpora & lexica

Computationele lexica

Computationele lexica zijn gestructureerde datasets met woorden en taalkundige informatie over die woorden (woordsoort, uitspraak, betekenis, etc.), bedoeld om door een computerprogramma gebruikt te worden. De INT-lexica zijn GiGaNT, DiaMaNT, de IMPACT-lexica en het PAROLE-lexicon.