Op dit moment ontwikkelt het Instituut voor de Nederlandse Taal (INT) een computationeel lexicon van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon, met de naam GiGaNT, vormt straks een verzameling van woorden en woordgroepen, waaronder named entities (namen van personen, plaatsen, organisaties), in alle mogelijke spelling- en vormvarianten.
Aan elke woordingang van GiGaNT koppelen we relevante taalkundige informatie zoals woordsoort, morfologische analyse en het woordparadigma door de eeuwen heen.
Lexicon met citaten
In GiGaNT worden alle woorden in het lexicon opgenomen met citaten, waarbij elk citaat is voorzien van bron en datum (bibliografische gegevens) en daterings- en lokaliseringsinformatie.
Gebruik van GiGaNT
GiGaNT is ontwikkeld voor computerlinguïstische tools. We bouwen het dan ook samen met een software-toolset voor zowel lexiconontwikkeling als lexicontoepassing. GiGaNT kunt u straks ook online raadplegen als onderdeel van de Geïntegreerde Taalbank.
Hilex & Molex
Het lexicon heeft twee hoofdmodules: GiGaNT-Hilex, de historische lexiconcomponent, gebaseerd op het materiaal van de historische woordenboeken van het INT, en GiGaNT-Molex, de moderne lexiconcomponent, met materiaal uit de INT-corpora. De ontwikkeling van beide hoofdmodules gebeurt parallel.
Beschikbaarheid
Zodra het kan, worden er tussentijdse releases gedaan.
Voor wat betreft GiGaNT-Hilex zijn de basismodules, gebaseerd op het Woordenboek der Nederlandsche Taal (WNT) en het Middelnederlandsch Woordenboek (MNW), gereleased en toegankelijk gemaakt via een lexiconservice, een API (Application Programming Interface) die toegang geeft tot het lexicon. Wie gebruik wil maken van die service, kan contact opnemen met Katrien Depuydt.
GiGaNT-Molex versie 1.0 is gereleased en als dataset downloadbaar voor zowel niet-commercieel gebruik als commercieel gebruik. Het lexicon bevat 201.448 lemmata en 901.621 woordvormen met afbrekingen. Het materiaal van GiGaNT-Molex is gebaseerd op hedendaags Nederlands corpusmateriaal van het INT uit Nederland en de Caribische rijksdelen, België en Suriname. Het bevat lemmata met compleet paradigma inclusief afbrekingen. Alle lemmata en paradigmata zijn handmatig gecontroleerd en conform de officiële spelling.
De regels en principes die ten grondslag liggen aan GiGaNT hebben we beschreven in drie documenten: Morfosyntactische verrijking, Lemmatiseerprincipes en Morfologische analyse.
We hebben ook een morfologische parser, een benchmarkset voor historische morfologie en een Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN) ontwikkeld.
Applicaties/producten
Meer lezen
- Lemmatiseerprincipes van M. Mooijaart, 2012 (INL Working Papers 4)
- Morfologische analyse van F. Karsdorp, 2010 (INL Working Papers 2)
- Morfosyntactische verrijking van T. Ruitenberg en K. Van pellicom et al., 2010 (INL Working Papers 3)
- Tagset Diachroon Nederlands door T. Haga et al. (INT Working Papers 1)