Het Instituut voor de Nederlandse Taal (INT) ondersteunt taalwetenschappelijk onderzoek door het ontwikkelen, onderhouden en beschikbaar stellen van digitale onderzoeksbronnen, ook wel taalmaterialen genoemd. Twee nieuwe toevoegingen aan onze catalogus zijn GiGaNT-Molex, een groot computationeel lexicon van het hedendaags Nederlands, en CHN-n-grams, reeksen opeenvolgende woorden uit hedendaagse teksten.
GiGaNT-Molex
Het INT ontwikkelt een groot computationeel lexicon van het Nederlands vanaf de zesde eeuw tot nu. Het lexicon met de toepasselijke naam GiGaNT (Groot Geïntegreerd Lexicon van de Nederlandse Taal) bestaat uit een historisch deel en een modern deel. De moderne lexiconcomponent, GiGaNT-Molex genaamd, is gebaseerd op hedendaags tekstmateriaal uit Nederland en de Caribische rijksdelen, België en Suriname. Een eerste versie van GiGaNT-Molex bestaat uit 201.448 lemma’s (trefwoorden) met bijbehorende vervoegingen en verbuigingen, wat in totaal neerkomt op 901.621 woordvormen. Het lexicon is te downloaden voor commercieel en niet-commercieel gebruik.
Opeenvolgende woorden in CHN n-grams
Een reeks opeenvolgende woorden in een lopende tekst wordt in de taalkunde ook wel n-gram genoemd, waarbij n staat voor het aantal woorden. Een unigram (1-gram) bestaat bijvoorbeeld uit één woord, zoals ‘nog’, en een bigram (2-gram) uit twee: ‘nog steeds’. N-grammen geven informatie over woordvolgordes in een tekst, en worden bijvoorbeeld door automatische schrijfhulpen gebruikt om het volgende te typen woord te voorspellen. Het INT stelt voor commercieel en niet-commercieel gebruik een dataset van n-grammen beschikbaar, bestaande uit reeksen met één, twee en drie woorden. De woordenreeksen zijn afkomstig uit het Corpus Hedendaags Nederlands (CHN), een verzameling hedendaagse teksten uit onder andere kranten, tijdschriften en juridisch materiaal.
- Download GiGaNT-Molex voor commercieel of niet-commercieel gebruik
- Download CHN n-gramsvoor commercieel of niet-commercieel gebruik
- Bekijk alle taalmaterialen