Basislexicon
Voor het bouwen van computationele lexica van historisch Nederlands is binnen het IMPACT-project een structuur vastgesteld, die overigens ook aangehouden is voor GiGaNT. Er zijn strategieën voor lexiconbouw beschreven, op basis van ofwel woordenboekenmateriaal of corpora. En tot slot zijn er tools ontwikkeld en ter beschikking gesteld voor lexiconbouw.
Structuur en strategie
- IMPACT Lexicon Database Structure: beschrijving van de opzet en databasestructuur van een lexicon
- IMPACT Lexicon Cookbook: gebruiksaanwijzing voor het bouwen en implementeren van een lexicon
Tools
- CoBaLT: applicatie waarin een corpus van teksten kan worden geladen om de tokens te kunnen annoteren met lemma, woordsoort en meer. Het resultaat is: een geannoteerd corpus, en een lexicon bestaande uit woordvormen en de bijbehorende lemmata en verdere annotatie. (Er wordt momenteel gewerkt aan een nieuwe versie van CoBaLT.)
- Attestation Tool: multifunctionele GUI (graphic user interface) die gebruikt wordt bij de productie van computationele lexica en goudenstandaardgegevens voor named entity recognition. Enerzijds kunnen trefwoorden met hun citaten ingeladen worden om de automatische matching van het voorkomen van een lemma in een citaat te controleren. Anderzijds kan het ook gebruikt worden om automatisch uitgevoerde tagging van eigennamen in teksten handmatig te corrigeren.
Morfologische analyse
Om een morfologische component aan het GiGaNT-lexicon te kunnen toevoegen, hebben we een tool ontwikkeld voor automatische morfologische analyse. We hebben ook een benchmarkset gemaakt voor historische morfologie.
- MBMP (memory-based morphological parser): geheugen-gebaseerde morfologische parser voor de programmeertaal Python. De parser biedt de mogelijkheid om woorden te voorzien van een morfologische analyse. Dat kan de onderverdeling van een woord in morfemen zijn, de toekenning van woordsoorten en eventuele extra kenmerken aan (de morfemen van) een woord of complete hiërarchische analyses. Daarnaast biedt het pakket de functionaliteit van een generieke geheugen-gebaseerde classificeerder die voor tal van taken ingezet kan worden.
- Benchmarkset voor historische morfologie: ongeveer 5000 geanalyseerde woordvormen uit de verschillende woordenboeken van het INT, gelijk verdeeld over de tijd. De set is bedoeld om morfologische parsers te kunnen testen op diachroon morfologisch materiaal.