Categorieën
Corpora & lexica

Structuren, strategieën en tools voor lexiconbouw

Een van de kerntaken van het Instituut voor de Nederlandse Taal is het bouwen van lexica. Daarvoor ontwikkelen we structuren, strategieën en tools. Die vormen de basis voor een goed opgezet lexicon van historisch of modern Nederlands. Daarnaast maken we programmatuur die een lexicon kan verrijken met de morfologische kenmerken van woorden.

English version

Strategies and tools for lexicon compilation

Basic lexicon

For the compilation of computational lexicons of historical Dutch, a structure was established within the IMPACT project, which was also used for GiGaNT. Strategies for the compilation of lexicons have been described, on the basis of either dictionary material or corpora. And finally, tools have been developed and made available for lexicon compilation.

Structure and strategy

  • IMPACT Lexicon Database Structure: description of the design and database structure of a lexicon.
  • IMPACT Lexicon Cookbook: instruction on the compilation and implementation of a lexicon.

Tools

  • CoBaLT: application in which a corpus of texts can be uploaded to annotate the tokens with lemma, part of speech and more. The result is: an annotated corpus, and a lexicon consisting of word forms and their corresponding lemmas, and further annotations. (We are currently working on a new version of CoBaLT).
  • Attestation Tool: multifunctional GUI (graphic user interface) that is used in producing computational lexicon data and gold standard data for named entity recognition. On the one hand, headwords can be uploaded along with citations to check the automatic matching of the occurrence of lemmas in citations. On the other hand, it can be used to manually correct the automatic tagging of named entities in texts.

Morphological analysis

To facilitate the adding of a morphological component to the GiGaNT lexicon, we have developed a tool for automatic morphological analysis. A benchmark set has also been made for historical morphology.

  • MBMP: memory-based morphological parser for programming language Python. The parser makes it possible to provide words with morphological analyses. This could be the subdivision of a word into morphemes, the attribution of PoS tags to the morphemes of a word, or a complete hierarchical analysis. The package also offers the functionality of a generic memory-based classifier that can be used for all kinds of tasks.
  • Benchmark set for historical morphology: around 5,000 analysed word forms from the various INT dictionaries, spread out evenly over the centuries. The set is intended for testing morphological parsers on diachronic morphological material.

Applications/products

Further reading

Basislexicon

Voor het bouwen van computationele lexica van historisch Nederlands is binnen het IMPACT-project een structuur vastgesteld, die overigens ook aangehouden is voor GiGaNT. Er zijn strategieën voor lexiconbouw beschreven, op basis van ofwel woordenboekenmateriaal of corpora. En tot slot zijn er tools ontwikkeld en ter beschikking gesteld voor lexiconbouw.

Structuur en strategie

  • IMPACT Lexicon Database Structure: beschrijving van de opzet en databasestructuur van een lexicon
  • IMPACT Lexicon Cookbook: gebruiksaanwijzing voor het bouwen en implementeren van een lexicon

Tools

  • CoBaLT: applicatie waarin een corpus van teksten kan worden geladen om de tokens te kunnen annoteren met lemma, woordsoort en meer. Het resultaat is: een geannoteerd corpus, en een lexicon bestaande uit woordvormen en de bijbehorende lemmata en verdere annotatie. (Er wordt momenteel gewerkt aan een nieuwe versie van CoBaLT.)
  • Attestation Tool: multifunctionele GUI (graphic user interface) die gebruikt wordt bij de productie van computationele lexica en goudenstandaardgegevens voor named entity recognition. Enerzijds kunnen trefwoorden met hun citaten ingeladen worden om de automatische matching van het voorkomen van een lemma in een citaat te controleren. Anderzijds kan het ook gebruikt worden om automatisch uitgevoerde tagging van eigennamen in teksten handmatig te corrigeren.

Morfologische analyse

Om een morfologische component aan het GiGaNT-lexicon te kunnen toevoegen, hebben we een tool ontwikkeld voor automatische morfologische analyse. We hebben ook een benchmarkset gemaakt voor historische morfologie.

  • MBMP (memory-based morphological parser): geheugen-gebaseerde morfologische parser voor de programmeertaal Python. De parser biedt de mogelijkheid om woorden te voorzien van een morfologische analyse. Dat kan de onderverdeling van een woord in morfemen zijn, de toekenning van woordsoorten en eventuele extra kenmerken aan (de morfemen van) een woord of complete hiërarchische analyses. Daarnaast biedt het pakket de functionaliteit van een generieke geheugen-gebaseerde classificeerder die voor tal van taken ingezet kan worden.
  • Benchmarkset voor historische morfologie: ongeveer 5000 geanalyseerde woordvormen uit de verschillende woordenboeken van het INT, gelijk verdeeld over de tijd. De set is bedoeld om morfologische parsers te kunnen testen op diachroon morfologisch materiaal.