/ Onderzoek & projecten / Afgeronde projecten /

English version

Finished projects

During the past few years, the Dutch Language Institute (formerly Institute for Dutch Lexicology, INL) has worked together with other parties on various national and European projects. A selection is presented below.

Letters as Loot

Time span: 2008-2013
Links: www.brievenalsbuit.nl, Sea letters setting course for readability (news article)

In the Letters as Loot project, 17^th– and 18^th-century letters between Dutch people far away from home (such as sailors) and the home front were linguistically researched at Leiden University. The letters have been manually transcribed (typed out) by volunteers from the Leiden-based project Wikiscripta Neerlandica. The collection of letters is a goldmine for historians and linguists, because little is known about the everyday language of that period. The INL contributed to the linguistic annotation of the letters. That means that all kinds of linguistic information, such as spelling and word class, was added to the transcribed words. The addition of a modern standard form to all words and forms (lemmatization) makes its easier to search the texts. The INL has also developed a search application that was launched on 5 September 2013.

CLARIN

Acronym for: Common Language Resources and Technology Infrastructure
Time span: 2009-2013
Links: overview of all sub-projects, clarin.eu

CLARIN’s objective is to realize an integrated, interoperable research infrastructure using language sources and language technology. The infrastructure, which is to be stable, permanent, accessible and expandable, must put an end to the current fragmentation and promote the use of computational technology in the humanities (eHumanities). Within CLARIN, the INL was involved in several sub-projects, such as Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC and NAMESCAPE.

DAM-LR

Acronym for: Distributed Access Management for Language Resources
Time span: 2005-2006
Website: www.mpi.nl

In the DAM-LR project, an infrastructure was developed providing access to and management of language archives. Examples of language archives include (multimedial) corpora, lexica, grammars, etc. DAM-LR was a small-scale version of European CLARIN. Several parts of the (functional, prototypical) infrastructure of DAM-LR have been further developed in CLARIN.

ELAN

Acronym for: European Language Activity Network
Time span: 1998
Website: cordis.europa.eu

The objective of ELAN was to make all data from the European research community uniformly accessible, using a single query language and a single user interface. In order to make the data from specifically PAROLE and TELRI more accessible, the Dutch Language Institute, together with the University of Birmingham and Università di Pisa, has defined a Common Query Language.

ENABLER

Acronym for: European National Activities for Basic Language Resources
Time span: 2001-2003
Website: www.ilc.cnr.it

ENABLER was an infrastructural project with the objective of promoting cooperation between national activities in the field of ‘Language Resources’ (such as corpora and lexica). The Dutch-speaking regions were represented by the Dutch Language Union and the Dutch Language Institute, among other institutions.

ENeL

Acronym for: European Network of e-Lexicography
Time span: 2014-2018
Links: COST-website, dictionary portal for European languages

The aim of the project was to set up a European network for lexicographers that increased the visibility, accessibility and use of European national dictionaries. To that end the network regularly organized international meetings, workshops and training courses. Together with partners from 28 other European countries, the INL and the Fryske Akademy were responsible for the project application with COST: an organization that stimulates scientific cooperation in Europe. Within the ENeL project the INL functioned as Grant Holder and was part of the steering committee.

IMPACT

Acronym for: IMProving ACcess to Text
Time span: 2008-2012
Website: digitisation.eu

IMPACT was a European project that made online historical texts more accessible. In order to achieve this, the quality of the digitization and search methods in historical texts were optimized. Read more.

PAROLE

Acronym for: Preparatory Action for Linguistic Resources Organisation for Language Engineering
Time span: 1991-1999
Website: cordis.europa.eu (PAROLE), cordis.europa.eu (LE-PAROLE)

The PAROLE project catered to a growing need for modern electronic language sources, to be used mainly for language technology. Standards for the construction and enrichment of text corpora and text lexica were formulated on the basis of evaluative and feasibility studies. Institutes from 14 European countries cooperated on this project. Subsequently, a text corpus and a computational lexicon were built for each of the 14 corresponding languages, following the same standards. As a representative of the Dutch-speaking world, the INL made the following products:

PAROLE Corpus
PAROLE Distributable Corpus
PAROLE Lexicon

SIMPLE

Acronym for: Semantic Information for Multifunctional Plurilingual Lexica
Time span: 1998-2000
Website: clul.ulisboa.pt

The objective of SIMPLE was to add semantic information to the morphological and syntactic information already in the PAROLE lexicon. The information was selected on the basis of its usefulness to language technology applications. The INL served as the representative for the Dutch-speaking regions in this project.

Spelspiek

Time span: 2007-2008
Project: STEVIN demo project

Spelspiek was an interactive and automatic online spelling assistant. It was a chatbot: a robot that is able to simulate a conversation of questions and answers. One could ask Spelspiek something like: “How do you spell bjoetiekees?”, giving a Dutch approximation of the word in question. The chatbot would immediately tell you that the correct spelling is ‘beautycase’. So Spelspiek did not simply correct your spelling errors, it could also provide you with the correct spelling of a word written down as it is pronounced. Words that were not immediately recognized (both neologisms and incorrectly spelled words) were assessed by a spelling expert and added to Spelspiek. Consequently, Spelspiek learned more along the way. Spelspiek was originally a STEVIN demo project (2007-2008). The service was stopped in April 2019.

Succeed

Acronym for: Support Action Centre of Competence in Digitization
Time span: 2013-2014

This project promoted the implementation and validation of research findings in the field of mass digitization of text material. Read more (pdf). The INL was co-founder of the IMPACT Centre of Competence in Digitization. It led one of the work packages and was primarily responsible for the selection, adaptation, implementation and evaluation of text processing tools in libraries.

Taalradar

Time span: 2019
Project: European COST project enetCollect

Taalradar (‘language radar’) was a crowdsourcing platform. It is an initiative of the Dutch Language Institute (INT) to collect knowledge of the Dutch language by making use of the linguistic instincts of language users (crowdsourcing). Via this platform we already asked the public about the usage of blends (mixed words, such as preferendum), new words, and language variation. Such experiments give us a better insight into how language is used in practice, so that we can improve our dictionaries and other language materials.

TELRI

Acronym for: Trans-European Language Resources Infrastructure
Time span: 1995-1997
Website: telri.nytud.hu

The objectives of TELRI were similar to those of the PAROLE project. It focused primarily on forming a network between representatives of Eastern European languages and a few Western European ones. For this project, the INL served as the representative for the Dutch-speaking regions.

tranScriptorium

Time span: 2013-2015
Website: https://eadh.org/projects/transcriptorium

An enormous number of hand-written historical documents are being placed online by digital libraries across the globe. The unedited digital images only become truly useful once they have been enriched with information. The tranScriptorium project focused on the development of innovative, cost-effective solutions for the indexation, searching, and complete transcription of images of historical hand-written texts. This was done with the help of Handwritten Text Recognition technology. The INL led one of the work packages, and was primarily responsible for the lexica of the various languages and language models used in handwriting recognition. For Dutch, tranScriptorium focused mainly on 15th-century artes manuscripts. Read more.

Brieven als Buit
CLARIN
DAM-LR
Duidelijke Taal
ELAN
ENABLER
ENeL
IMPACT
PAROLE
SABeD
SignON
SIMPLE
Spelspiek
Succeed
Taalradar
TELRI
tranScriptorium
Wat je zegt ben je zelf

Brieven als Buit

Periode: 2008-2013
Links: brievenalsbuit.nl, Zeebrieven op koers naar leesbaarheid (nieuwsbericht)

In het project Brieven als Buit werden 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden (o.a. zeelieden) en het thuisfront, taalkundig onderzocht aan de Universiteit Leiden. Daar zijn de brieven ook handmatig overgetikt (getranscribeerd) door vrijwilligers van het Leidse project Wikiscripta Neerlandica. De verzameling brieven is een goudmijn voor historici en taalkundigen, omdat er nog weinig bekend is over alledaags taalgebruik in die tijd. Het INL werkte mee aan taalkundige verrijking van de brieven. Dat betekent dat er aan de getranscribeerde woorden allerlei taalkundige informatie werd toegevoegd, zoals over spelling en woordsoort. De toevoeging van een moderne standaardvorm aan alle woorden en woordvormen (lemmatiseren) maakt de teksten beter doorzoekbaar. Het INL heeft daarnaast de zoekapplicatie ontwikkeld die op 5 september 2013 online is gegaan.

CLARIN

Acroniem van: Common Language Resources and Technology Infrastructure
Periode: 2009-2013
Links: overzicht van alle deelprojecten, clarin.eu

Het doel van CLARIN was een geïntegreerde, interoperabele onderzoeksinfrastructuur realiseren met taalbronnen en taaltechnologie. De infrastructuur, die stabiel, permanent, toegankelijk en uitbreidbaar moet zijn, moet de huidige versnippering opheffen en gebruik van computationele technieken in de geesteswetenschappen (eHumanities) bevorderen. Binnen CLARIN was het INL betrokken bij verschillende deelprojecten zoals Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC en NAMESCAPE.

DAM-LR

Acroniem van: Distributed Access Management for Language Resources
Periode: 2005-2006
Website: www.mpi.nl

In het project DAM-LR is gewerkt aan een infrastructuur voor toegang tot en beheer van taalarchieven. Voorbeelden van taalarchieven zijn (multimediale) corpora, lexica, grammatica’s etc. DAM-LR was in het klein wat het Europese CLARIN in het groot is. Veel onderdelen van de (werkende, prototypische) infrastructuur van DAM-LR zijn doorontwikkeld in CLARIN.

Duidelijke Taal

Periode: 2024
Link: ivdnt.org

Duidelijke Taal (2024) was een pilotproject van het Instituut voor de Nederlandse Taal (INT) en de Taalunie. Deelnemers konden drie maanden lang in een spelomgeving zinnen beoordelen op een aantal punten, zoals juistheid en complexiteit. Het doel van dit crowdsourcingproject was het laten controleren en beoordelen van Nederlandse, door AI vereenvoudigde zinnen. Dit draagt bij aan onderzoek naar automatische vereenvoudiging van teksten, met als doel teksten automatisch te kunnen aanpassen aan verschillende doelgroepen.

ELAN

Acroniem van: European Language Activity Network
Periode: 1998
Website: cordis.europa.eu

ELAN had als doel alle data van de Europese onderzoeksgemeenschap op een uniforme manier toegankelijk te maken, met één vraagtaal en één userinterface. Om specifiek de data van PAROLE en TELRI toegankelijker te maken, heeft het INL, samen met de University of Birmingham en Università di Pisa, een Common Query Language gedefinieerd.

ENABLER

Acroniem van: European National Activities for Basic Language Resources
Periode: 2001-2003
Website: www.ilc.cnr.it

ENABLER was een infrastructureel project met als doel meer samenwerking tussen nationale activiteiten op het gebied van ‘Language Resources’ (corpora, lexica, e.d.). Het Nederlandse taalgebied werd vertegenwoordigd door onder meer de Nederlandse Taalunie en het INL.

ENeL

Acroniem van: European Network of e-Lexicography
Periode: 2014-2018
Links: COST-website, woordenboekportaal met kwalitatieve online woordenboeken van Europese talen

Het doel van het project was het opzetten van een Europees netwerk voor lexicologen dat de zichtbaarheid, de toegankelijkheid en het gebruik van de Europese nationale woordenboeken vergroot. Om dit doel te bereiken organiseerde het netwerk regelmatig internationale bijeenkomsten, workshops en trainingen. Het INL en de Fryske Akademy waren samen met partners uit 28 andere Europese landen verantwoordelijk voor de projectaanvraag bij COST: een organisatie die wetenschappelijke samenwerking in Europa stimuleert. Binnen het ENeL-project fungeerde het INL als Grant Holder en was daarnaast onderdeel van de stuurgroep.

IMPACT

Acroniem van: IMProving ACcess to Text
Periode: 2008-2012
Website: digitisation.eu

IMPACT was een Europees project dat online historische teksten toegankelijker maakt. Daarvoor werden in dit project de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten geoptimaliseerd. Lees meer.

PAROLE

Acroniem van: Preparatory Action for linguistic Resources Organisation for Language Engineering
Periode: 1991-1999
Website: cordis.europa.eu (PAROLE) en cordis.europa.eu (LE-PAROLE)

Het PAROLE-project voorzag in een groeiende behoefte aan moderne elektronische taalbronnen voor met name de taaltechnologie. Op grond van evaluatie- en haalbaarheidsstudies zijn er standaarden geformuleerd voor de opbouw en verrijking van tekstcorpora en lexica. Instituten uit 14 Europese landen hebben hieraan meegewerkt. Daarna is volgens diezelfde standaarden voor elk van de 14 talen een tekstcorpus en een computationeel lexicon gebouwd.

Als vertegenwoordiger van het Nederlandse taalgebied heeft het INL de volgende producten gemaakt:

PAROLE-corpus
PAROLE Distributable Corpus
PAROLE-lexicon

SABeD

Acroniem: Spoken Academic Belgian Dutch
Periode: 2021-2024
Resultaten: https://hdl.handle.net/10032/tm-a2-w4

Het INT werkte mee aan de supervisie van de ontwikkeling van het corpus Spoken Academic Belgian Dutch van de KU Leuven, en bouwde eveneens een aantal tools om met gesproken data om te gaan.

SignON

Periode: 2021-2024
Website: signon-project.eu

Het INT was als consortiumpartner betrokken bij het SignON-project, dat vanaf voorjaar 2021 voor drie jaar gefinancierd werd binnen het kader van het Horizon 2020-programma van de Europese Commissie. Het hoofddoel van dit project is het opzetten van automatische vertaalservices tussen gebarentalen en zogenaamde gesproken talen. De gebarentalen die bovenaan de agenda staan van deze Research and Innovation Action zijn Vlaamse Gebarentaal (VGT), Nederlandse Gebarentaal (NGT) en Ierse Gebarentaal. Gesproken talen zijn in eerste instantie het Nederlands en het Engels. Het consortium van dit project heeft een sterke Belgisch-Nederlandse component, met als consortiumpartners uit België: VRT, KU Leuven, UGent, Vlaams Gebarentaalcentrum en European Union for the Deaf. Vanuit Nederland nemen deel: INT, de Taalunie, Radboud Universiteit Nijmegen, Tilburg University, en als derde partij Beeld en Geluid. Het project wordt geleid door Dublin City University. In 2024 werd dit project succesvol afgerond. Het INT houdt de opgezette infrastructuur voor dit project nog minstens vijf jaar beschikbaar.

SIMPLE

Acroniem van: Semantic Information for Multifunctional Plurilingual Lexica
Periode: 1998-2000
Website: clul.ulisboa.pt

Het doel van SIMPLE was het toevoegen van semantische informatie aan de morfologische en syntactische informatie van het PAROLE-lexicon. De informatie is geselecteerd met het oog op de relevantie voor taaltechnologische toepassingen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

Spelspiek

Periode: 2007-2008
Project: STEVIN-demonstratieproject

Spelspiek was een interactieve en automatische onlinespellinghulp. Het was een chatbot: een robot waarmee je een vraag-antwoordgesprek kan nabootsen. Aan Spelspiek kon bijvoorbeeld de volgende vraag gesteld worden: ‘Hoe spel je bjoetiekees?’ De chatbot gaf direct het juiste antwoord: beautycase. Spelspiek corrigeerde dus niet alleen spelfouten maar kon ook de juiste spelling geven van een woord dat opgeschreven werd zoals je het uitspreekt. Woorden die niet direct herkend werden (zowel nieuwe woorden als fout gespelde woorden), werden beoordeeld door een spellingdeskundige en vervolgens aan Spelspiek toegevoegd. Spelspiek leerde dus al doende bij. Spelspiek was oorspronkelijk een STEVIN-demonstratieproject (2007-2008). De service is per april 2019 opgeheven.

Succeed

Acroniem van: Support Action Centre of Competence in Digitisation
Periode: 2013-2014

Het project Succeed richtte zich op de bevordering van de implementatie en validatie van onderzoeksresultaten op het gebied van de massadigitalisering van tekstmateriaal. Lees verder (pdf) . Het INL was medeoprichter van het IMPACT Centre of Competence in Digitisation, leidde een van de werkpakketten en was met name verantwoordelijk voor de selectie, adaptatie, implementatie en evaluatie van textprocessingtools in bibliotheken.

Taalradar

Periode: 2019
Project: COST-project enetCollect

Taalradar was een initiatief van het Instituut voor de Nederlandse Taal (INT) om kennis te verzamelen over het Nederlands door gebruik te maken van het taalgevoel van sprekers van de taal (crowdsourcing). Via dit crowdsourcingplatform vroegen we het publiek eerder naar het gebruik van blends (mixwoorden zoals preferendum), nieuwe woorden en taalvariatie. Door deze experimenten kunnen we beter in kaart brengen hoe de taal in praktijk wordt gebruikt, om bijvoorbeeld de woordenboeken van het INT te verbeteren.

TELRI

Acroniem van: Trans-European Language Resources Infrastrucure
Periode: 1995-1997
Website: telri.nytud.hu

De doelstellingen van TELRI waren soortgelijk aan die van het PAROLE-project. Het richtte zich in eerste instantie vooral op het vormen van een netwerk tussen vertegenwoordigers van Oost-Europese talen en enige West-Europese talen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

tranScriptorium

Periode: 2013-2015
Website: https://eadh.org/projects/transcriptorium

Wereldwijd worden er enorme hoeveelheden handgeschreven historische documenten online gezet door digitale bibliotheken. Die onbewerkte digitale afbeeldingen worden pas écht nuttig als ze met informatie zijn verrijkt. Het project tranScriptorium richtte zich op de ontwikkeling van innovatieve, rendabele oplossingen voor het indexeren, doorzoeken en volledig transcriberen van afbeeldingen van historische handgeschreven teksten. Dit werd gedaan met behulp van ‘Handwritten Text Recognition’-technologie. Het INL leidde een van de werkpakketten en was met name verantwoordelijk voor de lexica van de diverse talen en de taalmodellen die bij de handschriftherkenning gebruikt worden. Voor het Nederlands richtte tranScriptorium zich met name op vijftiende-eeuwse arteshandschriften. Lees verder (pdf).

Wat je zegt ben je zelf

Periode: 2022-2023
Website: Radboud Universiteit
Financiering: NWO
Partners: Centre for Language Studies (Radboud Universiteit), ITTA (UvA)

In dit project werden mbo-studenten via citizen science (burgerwetenschap) in aanraking gebracht met de sociolinguïstiek. De studenten zetten, met hulp van universitaire (master)studenten, bij het vak Nederlands zelf korte experimenten op zoals gebruikelijk is in de taalwetenschap. Mbo-studenten namen gesproken fragmenten op waarin zij variëren in taalgebruik (formeel, informeel, vakjargon, woordkeuze, dialect, et cetera) en binnen een bepaalde context (klanten te woord staan, sollicitatiegesprek, collega’s, leidinggevenden). Vervolgens lieten zij schoolgenoten, familie en vrienden de luisterfragmenten beoordelen op een aantal dimensies. Hoe zou de spreker overkomen op de klant? Hoe worden de verschillende sprekers beoordeeld? Studenten verzamelden en analyseerden gezamenlijk en onder begeleiding data, interpreteerden de resultaten en trokken conclusies. Het INT bouwde de website waar de fragmenten geüpload en beluisterd werden, en hostte alle data.

Finished projects

Letters as Loot

CLARIN

DAM-LR

ELAN

ENABLER

ENeL

IMPACT

PAROLE

SIMPLE

Spelspiek

Succeed

Taalradar

TELRI

tranScriptorium

Brieven als Buit

CLARIN

DAM-LR

Duidelijke Taal

ELAN

ENABLER

ENeL

IMPACT

PAROLE

SABeD

SignON

SIMPLE

Spelspiek

Succeed

Taalradar

TELRI

tranScriptorium

Wat je zegt ben je zelf

INT-nieuwsbrief

Terminologienieuwsbrief