Categorieën
Onderzoek & projecten

Computer­linguïstiek

Computerlinguïstiek is het analyseren van natuurlijke taal met behulp van computers. Het Instituut voor de Nederlandse Taal gebruikt computerlinguïstiek om oude teksten toegankelijk te maken, gesproken en geschreven taal te kunnen laten onderzoeken en spelling te controleren.

English version

Computational linguistics

Computational linguistics is the analysis of natural language that makes use of computers. It is also referred to as ‘natural text processing’, ‘language technology’ or ‘NLP’ (natural language processing).

How do we use and contribute to computational linguistics?

At the Dutch Language Institute (INT), computational linguistics plays a very important role. The description of the Dutch vocabulary is based on corpora that are analyzed and enriched with the help of various computer programs, both for contemporary Dutch and for historical texts. For example, programs are used that match words to their word classes (‘part-of-speech tagging’), that recognize names (‘named entity recognition’), or that morphologically analyze words. All of this information is added to the original texts, allowing other programs to efficiently extract lexicographically interesting information from the texts, such as frequency data or semantically related words.

Some examples:

GiGaNT

GiGaNT (Great Integrated Lexicon of the Dutch Language) is a computational lexicon in the making, covering the Dutch language as it was spoken from the sixth century up to now. Computational linguistic tools play a large part in the realization of this lexicon. They are used, for example, for morphological analysis and the detection of attestation material. Many language technology programs in their turn may benefit from the information provided by GiGaNT, such as spelling variation modules, part-of-speech taggers, and lemmatization software.

Spelling

The Dutch Language Institute is an authority in the field of spelling. Computational linguistic software can spot common spelling errors and also takes into account phonetic features (which means that for instance obergine can be recognized as aubergine). Software of this type was used for the HulK, the Spelling Certification Mark. The HulK can for example be used by dictionary suppliers to check their list of main entry words for spelling errors.

IMPACT

IMPACT (Improving Access to Text) is a European project that aims to improve the digitization of and access to historical texts.

Software package for the building and application of lexicons

The Dutch Language Institute has developed a software package for the building and application of computational lexica of historical language material. It contains both software for automatic editing and elaborate work environments for the manual edition of language data.

Examples:

  • A spelling variation module
  • A program for the automatic deduction of spelling variation rules from lexical material from a given period
  • A lemmatizer: a program automatically assigning a modern equivalent to every word in a text

Other language technology tools

The Dutch Language Institute has improved the existing techniques for Named Entity Recognition in historical material. It has also developed a program for the morphological analysis of words. This program can be used during the digitization of texts. All the software developed can also be applied to other languages.

European co-operation

Apart from the Dutch Language Institute, about 30 libraries and research institutes of the following, mostly European, countries take part in IMPACT: Germany, Austria, France, Spain, the Czech Republic, Slovenia, Poland, Bulgaria, Greece, Great Britain, Israel, Russia, and the Netherlands.


Further reading

Computerlinguïstiek is het analyseren van natuurlijke taal met behulp van computers. Het wordt ook wel natuurlijketaalverwerking genoemd, taaltechnologie, computationele taalkunde of NLP (natural language processing).

Wat doen wij op het gebied van computerlinguïstiek?

Het Instituut voor de Nederlandse Taal (INT) doet veel aan computerlinguïstiek. We beschrijven de woordenschat op basis van corpora die met behulp van verschillende computerprogramma’s worden geanalyseerd en verrijkt. Dit gebeurt zowel voor hedendaags Nederlands als voor historische teksten. Er zijn bijvoorbeeld programma’s die woordsoorten bij woorden zoeken (‘part-of-speech tagging’), die namen herkennen (‘named entity recognition’) en die de opbouw van woorden analyseren (morfologie). Al deze informatie wordt aan de oorspronkelijke teksten toegevoegd. Vervolgens kun je met behulp van andere programmatuur lexicografisch interessante informatie op een efficiënte manier uit de teksten halen, zoals frequentiegegevens of verwante woorden.

Enkele voorbeelden:

GiGaNT

GiGaNT (Groot Geïntegreerd Lexicon van de Nederlandse Taal) wordt een computationeel lexicon van het Nederlands van de zesde eeuw tot nu. Computerlinguïstische tools spelen een grote rol in de totstandkoming van dit lexicon, bijvoorbeeld voor de morfologie en voor het zoeken van attestatiemateriaal. Bovendien kunnen veel taaltechnologische programma’s hun voordeel doen met de informatie uit GiGaNT, bijvoorbeeld spellingvariatiemodules, part-of-speechtaggers en lemmatiseringssoftware.

Spelling

Het INT is een autoriteit op het gebied van spelling. Computerlinguïstische software kan veelvoorkomende spelfouten opsporen en neemt ook fonetische kenmerken mee (zodat bijvoorbeeld obergine kan worden herkend als aubergine). Dit soort software is ingezet voor HulK (Hulpmiddel Keurmerk). Bij HulK kunnen bijvoorbeeld woordenboekleveranciers hun trefwoordenlijst op spelling laten controleren.

IMPACT

IMPACT (Improving Access to Text) is een Europees project met als doel het verbeteren van het digitaliseren en toegankelijk maken van historische teksten.

Softwarepakket voor lexiconbouw en -toepassing

Het Instituut voor de Nederlandse Taal heeft een softwarepakket ontwikkeld waarmee computationele lexica van historisch taalmateriaal gemaakt en toegepast kunnen worden. Het bevat zowel software voor automatische bewerking als uitvoerig uitgewerkte werkomgevingen om handmatig taaldata te bewerken.

Voorbeelden:

  • Een spellingvariatiemodule
  • Een programma voor het automatisch afleiden van spellingvariatieregels uit woordmateriaal van een bepaalde periode
  • Een lemmatiseerder: een programma dat automatisch een modern equivalent toekent aan elk woord in een tekst

Andere taaltechnologische hulpmiddelen

Het INT heeft de bestaande technieken verbeterd voor named entity recognition (automatische herkenning van namen) in historisch materiaal. Daarnaast hebben we een programma ontwikkeld voor morfologische analyse van woorden. Dit programma kan gebruikt worden tijdens de digitalisering van teksten. Alle software die ontwikkeld is, kan ook voor andere talen worden ingezet.

Europese samenwerking

Aan IMPACT doen, buiten het INT, ongeveer 30 bibliotheken en onderzoeksinstellingen mee uit de volgende landen: Duitsland, Oostenrijk, Frankrijk, Spanje, Tsjechië, Slovenië, Polen, Bulgarije, Griekenland, Groot-Brittannië, Israël, Rusland en Nederland.


Meer lezen