Taalmaterialen

Het Instituut voor de Nederlandse Taal ontwikkelt en levert data voor woordenboeken, (computationele) lexica, corpora en tools. Onze woordenboeken kunt u direct online raadplegen. Software en computerlinguïstische tools zijn open source beschikbaar. Voor andere producten is soms een licentie of een account nodig, of ze zijn toegankelijk via CLARIN (CLARIN IvdNT-portaal). Resultaten en tools van lopende (Europese) projecten zoals GiGant en IMPACT zijn beschikbaar via de betreffende projectpagina’s.

Zie voor taal- en spraaktechnologische materialen ook
tst-centrale.org.

Woordenboeken

Lexica

  • Cornetto-LMF (CLARIN): lexicale database voor het Nederlands met semantische relaties en combinatorische informatie.
  • DuELME-LMF (CLARIN): lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies in LMF-formaat.
  • e-Lex: lexicale databank van het Nederlands met een enkelwoordlexicon (ca. 220.000 trefwoorden) en een meerwoordlexicon (ca. 600.000), voorzien van morfologische, syntactische, fonologische informatie en (deels) semantische informatie.
  • INL Historische Woordenlijst: 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970. Zie voor een evaluatie van het gebruik van het lexicon in OCR deze video en dit paper. De data is op aanvraag beschikbaar via Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..
  • INL IMPACT: NE-lexicon Nederlands met historische namen en varianten van de periode (1750 – 1945). De data is op aanvraag beschikbaar via Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..
  • INT lexicon service: webservice waarmee iedere tool toegang kan krijgen tot het GiGaNT-lexicon met behulp van http-requests. De webservice biedt diverse mogelijkheden. Men kan woordvormen opvragen die bij een lemma horen of andersom. Men kan de resultaten beperken door een bepaalde periode te definiëren of een woordsoort op te geven. De lexicale informatie wordt teruggegeven in zowel XML als JSON formaat. Om toegang te krijgen tot het lexicon volstaat een mailtje naar Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..
  • PAROLE-lexicon: ruim 20.000 entry's, voorzien van woordsoort, getal, naamval en syntactische complementatiepatronen.
  • Referentiebestand Nederlands: 50.000 frequente Nederlandse woorden aangevuld met taalkundige informatie (applicatie ontwikkeld door het INL).
  • WebCelex: interface waarmee de CELEX lexicale databases van het Duits, Engels, Nederlands kunnen worden geraadpleegd. Voor iedere taal zijn de lemma's aangevuld met orthografische, fonologische, morfologische, syntactische informatie en frequentiegegevens.

Corpora

  • AutoSearch (CLARIN): een tool om geannoteerde teksten te uploaden (voor lemma en woordsoort, TEI- of FoLiA-formaat), één of meerdere corpora te definiëren en deze te doorzoeken.
  • Brieven als Buit: taalkundig verrijkte 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden en het thuisfront.
  • Brieven als Buit - Gouden Standaard: de ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal. De data is beschikbaar op aanvraag via Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..
  • Corpus Gysseling (CLARIN): verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek. De bronbestanden van het corpus zijn op aanvraag beschikbaar via www.tst-centrale.org
  • Corpus Hedendaags Nederlands (CLARIN): een tekstverzameling van ruim een miljoen teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal. Het corpus is een samenvoeging van het oude 5, 27 en 38 Miljoen Woorden Corpus en het PAROLE-corpus, aangevuld met krantenteksten uit NRC en De Standaard ( momenteel tot 2013). Daarnaast bevat het corpus materiaal uit Suriname en de Antillen. Het corpus bevat 440 miljoen tokens, waarvan 224 miljoen Nederlands Nederlands, 185 miljoen Belgisch Nederlands, 14,5 miljoen Antilliaans Nederlands en 18,3 miljoen Surinaams Nederlands.
  • Cd-rom Middelnederlands (1998): bevat het Middelnederlandsch Woordenboek, de teksten van het Corpus Gysseling en een collectie van bijna 300 rijm- en prozateksten. Omdat de cd-rom niet meer compatibel is met de huidige besturingssystemen wordt de cd-rom als bestand met installatie-instructies ter beschikking gesteld.
  • Corpus Middelnederlands: een verzameling van 336 Middelnederlandse literaire teksten uit de periode 1250-1500, in TEI gecodeerd (oorspronkelijk gepubliceerd op de cd-rom Middelnederlands). Het corpus is beschikbaar op aanvraag via Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..
  • Corpus Oudnederlands: verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200.
  • Frequentielijsten Corpora: de 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het CGN, het ANW-corpus, het Eindhoven-corpus en het D-Coi-corpus.
  • Neologismen Online v3: lijst met ca. 19.000 nieuwe Nederlandse woorden en uitdrukkingen: lemma, woordsoort, definitie, voorbeeld met bronverwijzing.
  • OpenSoNaR (CLARIN): online zoeksysteem voor het SoNaR-corpus, een tekstverzameling van hedendaags geschreven Nederlands dat uit meer dan 500 miljoen woorden bestaat.
  • PAROLE Distributable Corpus: selectie van 3 miljoen woorden uit het 20 miljoen woorden tellende PAROLE-corpus 2004.
  • PAROLE-internetcorpus: niet meer als afzonderlijk corpus beschikbaar; data geïntegreerd in het Corpus Hedendaags Nederlands.
  • VU-DNC-corpus: diachroon Nederlands krantencorpus, bestaande uit data van vijf kranten: Algemeen Dagblad, NRC (Handelsblad), de Telegraaf, Trouw en de Volkskrant .

Tools

  • @Philostei (CLARIN): webservice om afbeeldingen van tekst om te zetten in bewerkbare tekst (TEI-formaat).
  • Attestation Tool: multifunctionele, downloadbare gebruikersinterface voor de productie van computationele lexica, inclusief gouden standaard voor named entity tagging.
  • BlackLab: corpuszoeksysteem op basis van Apache Lucene.
  • BlackLab Server: webservice voor het zoeken in corpora met BlackLab vanuit iedere programmeertaal.
  • CoBaLT: downloadbare applicatie om een verzameling tekstbestanden in te laden en taalkundig te annoteren.
  • HulK/Keurmerk Spelling: keurmerk voor producten die de regels en principes van de officiële spelling van de Nederlandse Taalunie volgen.
  • INL labs: webservice voor het taggen/lemmatiseren van (historische) teksten met o.a. een tagger voor eigennamen (named entities) en een tagger speciaal getraind voor historisch materiaal. De laatste geeft de moderne woordvormen weer en maakt een koppeling naar betekenisomschrijvingen.
  • MBMP Morphological Parser: een geheugen-gebaseerde morfologische parser voor de programmeertaal Python.
  • Namescape (CLARIN): geschikt maken van taalkundige tools rond automatische naamherkenning voor letterkundig corpusonderzoek.
  • NERD (CLARIN): named entity recognizer.
  • OpenConvert (CLARIN): een tool om tekst te converteren naar xml-formaat (TEI) en te voorzien van taalkundige annotaties.
  • Spelspiek: interactieve online spellinghulp, waaraan men spellingsvragen in natuurlijke taal kan stellen.
  • Ticclops (CLARIN): volledig automatische tool, ontwikkeld voor spellingcontrole en tekstnormalisatie van corpora.

Documenten