Strategieën en tools voor lexiconbouw

English

Basislexicon

Bij het IMPACT-project was de focus het bouwen van computationele lexica van historisch Nederlands.

Daarvoor is een structuur vastgesteld voor de computationele lexica, die ook aangehouden is voor GiGaNT. Er zijn strategieën voor lexiconbouw beschreven, op basis van ofwel woordenboekenmateriaal of corpora. En tot slot zijn er tools ontwikkeld en ter beschikking gesteld voor lexiconbouw.

Structuur en strategie

  • IMPACT Lexicon Database Structure: beschrijving van de opzet en databasestructuur van een lexicon.
  • IMPACT Lexicon Cookbook: gebruiksaanwijzing voor het bouwen en implementeren van een lexicon

Tools

  • CoBaLT: applicatie waarin een corpus van teksten kan worden geladen om de tokens te kunnen annoteren met lemma, woordsoort en meer. Het resultaat is: een geannoteerd corpus, en een lexicon bestaande uit woordvormen en de bijbehorende lemmata en verdere annotatie.
  • Attestation Tool: multifunctionele GUI (graphic user interface) die gebruikt wordt bij de productie van computationele lexica- en gouden standaardgegevens voor NE-tags. Enerzijds kunnen trefwoorden met hun citaten ingeladen worden om de automatische matching van het voorkomen van een lemma in een citaat te controleren. Anderzijds kan het ook gebruikt worden om om automatisch uitgevoerde tagging van named entities in teksten handmatig te corrigeren.

Morfologische analyse

Om een morfologische component aan het GiGaNT-lexicon te kunnen toevoegen, is er gewerkt aan een tool voor automatische morfologische analyse. Er is ook een benchmarkset gemaakt voor historische morfologie.

  • MBMP (memory-based morphological parser): geheugen-gebaseerde morfologische parser voor de programmeertaal Python. De parser biedt de mogelijkheid om woorden te voorzien van een morfologische analyse. Dat kan de onderverdeling van een woord in morfemen zijn, de toekenning van POS-tags aan de morfemen van een woord of complete hiërarchische analyses. Daarnaast biedt het pakket de functionaliteit van een generieke geheugen-gebaseerde classificeerder die voor tal van taken ingezet kan worden.
  • Benchmarkset voor historische morfologie: ongeveer 5000 geanalyseerde woordvormen uit de verschillende woordenboeken van het INT, gelijk verdeeld over de tijd. De set is bedoeld om morfologische parsers te kunnen testen op diachroon morfologisch materiaal.

Strategies and tools for lexicon compilation

Basic lexicon

The IMPACT project focused on the compilation of computational lexicons of historical Dutch.

For this purpose, a structure was established for computational lexicons, which was also used for GiGaNT. Strategies for the compilation of lexicons have been described, on the basis of either dictionary material or corpora. Finally, tools have been developed and made available for lexicon compilation.

Structure and strategy

  • IMPACT Lexicon Database Structure: description of the design and database structure of a lexicon.
  • IMPACT Lexicon Cookbook: instruction on the compilation and implementation of a lexicon.

Tools

  • CoBaLT: application in which a corpus of texts can be uploaded to annotate the tokens with lemma, part of speech, and more. The result is: an annotated corpus, and a lexicon consisting of word forms and their corresponding lemmas, and further annotations.
  • Attestation Tool: multifunctional GUI (graphic user interface) that is used in producing computational lexicon data and golden standard data for NE tags. On the one hand, headwords can be uploaded along with citations to check the automatic matching of the occurrence of lemmas in citations. On the other hand, it can be used to manually correct the automatic tagging of named entities in texts.

Morphological analysis

To facilitate the adding of a morphological component to the GiGaNT lexicon, we have developed a tool for automatic morphological analysis. A benchmark set has also been made for historical morphology.

  • MBMP: memory-based morphological parser for programming language Python. The parser makes it possible to provide words with morphological analyses. This could be the subdivision of a word into morphemes, the attribution of PoS tags to the morphemes of a word, or a complete hierarchical analysis. The package also offers the functionality of a generic memory-based classifier that can be used for all kinds of tasks.
  • Benchmark set for historical morphology: around 5,000 analysed word forms from our own dictionaries, spread out evenly over the centuries. The set is intended for testing morphological parsers on diachronic morphological material.

Op deze website maken wij gebruik van cookies.