GiGaNT

English

Op dit moment ontwikkelen we GiGaNT: een computationeel lexicon van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon vormt straks een verzameling van woorden en woordgroepen, waaronder ook named entities (namen van personen, plaatsen, organisaties), in alle mogelijke spelling- en vormvarianten.

Aan elke woordingang van GiGaNT koppelen we relevante taalkundige informatie zoals woordsoort, morfologische analyse en het woordparadigma door de eeuwen heen.

GiGaNT = lexicon met citaten

In GiGaNT worden alle woorden in het lexicon opgenomen met citaten, waarbij elk citaat is voorzien van bron en datum (bibliografische gegevens) en daterings- en lokaliseringsinformatie.

Gebruik van GiGaNT

GiGaNT is ontwikkeld voor computerlinguïstische tools. We bouwen het dan ook samen met een software-toolset voor zowel lexiconontwikkeling als lexicontoepassing. GiGaNT kunt u straks ook online raadplegen als onderdeel van de Geïntegreerde Taalbank.

Ontwikkeling van GiGaNT

Het lexicon heeft twee hoofdmodules: GiGaNT-Hilex, de historische lexiconcomponent, gebaseerd op het materiaal van de historische woordenboeken van het INT, en GiGaNT-Molex, de moderne lexiconcomponent, met materiaal uit de INT-corpora. De ontwikkeling van beide hoofdmodules gebeurt parallel.

De resultaten

Zodra het kan, worden er tussentijdse releases gedaan.

Voor wat betreft GiGaNT-Hilex zijn de basismodules, gebaseerd op het Woordenboek der Nederlandsche Taal en het Middelnederlandsch Woordenboek, gereleased en toegankelijk gemaakt via een lexiconservice. Om gebruik te kunnen maken van die service, contacteer Katrien Depuydt.

GiGaNT-Molex versie 1.0 is gereleased en als dataset downloadbaar voor zowel niet-commercieel gebruik als commercieel gebruik. Het lexicon bevat 201.448 lemmata en 901.621 woordvormen met afbrekingen. Het materiaal van GiGaNT-Molex is gebaseerd op hedendaags Nederlands corpusmateriaal van het INT uit Nederland, Vlaanderen, de Antillen en Suriname. Het bevat lemmata met compleet paradigma inclusief afbrekingen. Alle lemmata en paradigmata zijn manueel geverifieerd en conform de officiële spelling.

De regels en principes die ten grondslag liggen aan GiGaNT hebben we beschreven in drie handleidingen: Morfosyntactische verrijking, Lemmatiseerprincipes en Morfologische analyse.

We ontwikkelden ook een morfologische parser en een benchmark set voor historische morfologie.

GiGaNT

At the moment we are developing GiGaNT: a computational lexicon of the Dutch language from the sixth century up to the present. This lexicon will be a collection of words and word groups, including named entities (names of persons, places, organisations), showing every possible variant of spelling and form.

Relevant information such as part of speech, morphological analysis, and the inflectional paradigm through the ages, will be added to every word entry.

GiGaNT = lexicon containing citations

All words in GiGaNT are supported by citations, always complete with their sources and dates (bibliographical information) and with dating and localisation information.

Using GiGaNT

Since GiGaNT is compiled for computational linguistic tools, we are at the same time building a software toolset for its development and application. Soon, it will be possible to consult GiGaNT online as part of the Geïntegreerde Taalbank (integrated language database).

Development of GiGaNT

The lexicon has two main modules: GiGaNT Hilex, the historical lexicon component, which is based on the materials of our historical dictionaries; and GiGaNT Molex, the modern lexicon component, containing materials from our corpora. The two modules are developed parallel to each other.

The results

Whenever possible, there will be an interim release.

The basic modules of GiGaNT Hilex, which are based on the Dictionary of the Dutch Language and the Dictionary of Middle Dutch, have been released and made available via a lexicon service. If you want to make use of this service, please contact Katrien Depuydt.

GiGaNT Molex version 1.0 has been released and is available for download as a dataset for both non-commercial use and commercial use. The lexicon contains 201,448 lemmas and 901,621 forms of words including how they break down. The materials of GiGaNT Molex are based on our contemporary Dutch corpus materials from the Netherlands, Flanders, the Antilles and Suriname. They contains lemmas, complete with paradigms and word division points. All lemmas and paradigms have been manually verified and are in accordance with the official spelling.

The rules and principles that are at the basis of GiGaNT were described in three manuals: Morfosyntactische verrijking (Morphosyntactic annotation), Lemmatiseerprincipes (Lemmatisation principles), and Morfologische analyse (Morphological analysis).

We have also developed a morphological parser and a benchmark set for historical morphology.

Op deze website maken wij gebruik van cookies.