Afgeronde projecten

Het Instituut voor de Nederlandse Taal (voorheen Instituut voor Nederlandse Lexicologie, INL) heeft de afgelopen jaren in samenwerkingsverband deelgenomen aan meerdere (Europese) projecten. Hieronder een selectie:

Brieven als Buit

Periode: 2008-2013
Links: www.brievenalsbuit.nl, http://www.kennislink.nl/publicaties/nieuwe-vondsten-in-oude-brieven, Zeebrieven op koers naar leesbaarheid, Het lemmatiseren van brieven uit de 17e en 18e eeuw

In het project Brieven als Buit werden 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden (o.a. zeelieden) en het thuisfront, taalkundig onderzocht aan de Universiteit Leiden. Daar zijn de brieven ook handmatig overgetikt (getranscribeerd) door vrijwilligers van het Leidse project Wikiscripta Neerlandica. De verzameling brieven is een goudmijn voor historici en taalkundigen, omdat er nog weinig bekend is over alledaags taalgebruik in die tijd. Het INL werkte mee aan taalkundige verrijking van de brieven. Dat betekent dat er aan de getranscribeerde woorden allerlei taalkundige informatie werd toegevoegd, zoals over spelling en woordsoort. De toevoeging van een moderne standaardvorm aan alle woorden en woordvormen (lemmatiseren) maakt de teksten beter doorzoekbaar. Het INL heeft daarnaast de zoekapplicatie ontwikkeld die op 5 september 2013 online is gegaan.

CLARIN

Acroniem van: Common Language Resources and Technology Infrastructure
Periode: 2009-2013
Links: overzicht van alle deelprojecten, www.clarin.eu

Het doel van CLARIN was een geïntegreerde, interoperabele onderzoeksinfrastructuur realiseren met taalbronnen en taaltechnologie. De infrastructuur, die stabiel, permanent, toegankelijk en uitbreidbaar moet zijn, moet de huidige versnippering opheffen en gebruik van computationele technieken in de geesteswetenschappen (eHumanities) bevorderen. Binnen CLARIN was het INL betrokken bij verschillende deelprojecten zoals Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC en NAMESCAPE.

DAM-LR

Acroniem van: Distributed Access Management for Language Resources
Periode: 2005-2006
Website: www.mpi.nl
Contact: Servicedesk, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

In het project DAM-LR is gewerkt aan een infrastructuur voor toegang tot en beheer van taalarchieven. Voorbeelden van taalarchieven zijn (multimediale) corpora, lexica, grammatica's etc. DAM-LR was in het klein wat het Europese CLARIN in het groot is. Veel onderdelen van de (werkende, prototypische) infrastructuur van DAM-LR zijn doorontwikkeld in CLARIN.

ELAN

Acroniem van: European Language Activity Network
Periode: 1998
Website: www.loria.fr of cordis.europa.eu
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken., hoofd Taalbank Nederlands

ELAN had als doel alle data van de Europese onderzoeksgemeenschap op een uniforme manier toegankelijk te maken, met één vraagtaal en één user interface. Om specifiek de data van PAROLE en TELRI toegankelijker te maken, heeft het INL, samen met de University of Birmingham en Università di Pisa, een Common Query Language gedefinieerd.

ENABLER

Acroniem van: European National Activities for Basic Language Resources
Periode: 2001-2003
Website: www.ist-world.org
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

ENABLER was een infrastructureel project met als doel meer samenwerking tussen nationale activiteiten op het gebied van 'Language Resources' (corpora, lexica, e.d.). Het Nederlandse taalgebied werd vertegenwoordigd door onder meer de Nederlandse Taalunie en het INL.

IMPACT

Acroniem van: IMProving ACces to Text
Periode: 2008-2012
Website: http://www.digitisation.eu/
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

IMPACT was een Europees project dat online historische teksten toegankelijker maakt. Daarvoor werden in dit project de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten geoptimaliseerd. Lees meer.

PAROLE

Acroniem van: Preparatory Action for Linguistic Resources Organisation for Language Engineering
Periode: 1991-1999
Website: www.ist-world.org
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

Het PAROLE-project voorzag in een groeiende behoefte aan moderne elektronische taalbronnen voor met name de taaltechnologie. Op grond van evaluatie- en haalbaarheidstudies zijn er standaarden geformuleerd voor de opbouw en verrijking van tekstcorpora en lexica. Instituten uit 14 Europese landen hebben hieraan meegewerkt. Daarna is volgens diezelfde standaarden voor elk van de 14 talen een tekstencorpus en een computationeel lexicon gebouwd.

Als vertegenwoordiger van het Nederlandse taalgebied heeft het INL de volgende producten gemaakt:

  • PAROLE-corpus
  • PAROLE Distributable Corpus
  • PAROLE-lexicon

SIMPLE

Acroniem van:Semantic Information for Multifunctional Plurilingual Lexica
Periode: 1998-2000
Website: www.ub.es
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken., hoofd Taalbank Nederlands

Doel van SIMPLE was het toevoegen van semantische informatie aan de morfologische en syntactische informatie van het PAROLE-lexicon. De informatie is geselecteerd met het oog op de relevantie voor taaltechnologische toepassingen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

Succeed

Periode: 2013-2014
Website: www.succeed-project.eu

Succeed is een acroniem voor Support Action Centre of Competence in Digitisation. Het project richtte zich op de bevordering van de implementatie en validatie van onderzoeksresultaten op het gebied van de massadigitalisering van tekstmateriaal. Lees verder (pdf). Het INL was medeoprichter van het IMPACT Centre of Competence in Digitisation, leidde een van de werkpakketten en was met name verantwoordelijk voor de selectie, adaptatie, implementatie en evaluatie van textprocessingtools in bibliotheken.

TELRI

Acroniem van: Trans-European Language Resources Infrastrucure
Periode: 1995-1997
Website: telri.nytud.hu
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken., hoofd Taalbank Nederlands

De doelstellingen van TELRI waren soortgelijk aan die van het PAROLE-project. Het richtte zich in eerste instantie vooral op het vormen van een netwerk tussen vertegenwoordigers van Oost-Europese talen en enige West-Europese talen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

tranScriptorium

Periode: 2013-2015
Website: www.transcriptorium.eu

Wereldwijd worden er enorme hoeveelheden handgeschreven historische documenten online gezet door digitale bibliotheken. Die onbewerkte digitale afbeeldingen worden pas écht nuttig als ze met informatie zijn verrijkt. Het project tranScriptorium richtte zich op de ontwikkeling van innovatieve, rendabele oplossingen voor het indexeren, doorzoeken en volledig transcriberen van afbeeldingen van historische handgeschreven teksten. Dit werd gedaan met behulp van 'Handwritten Text Recognition'-technologie. Lees verder. Het INL leidde een van de werkpakketten en was met name verantwoordelijk voor de lexica van de diverse talen en de taalmodellen die bij de handschriftherkenning gebruikt worden. Voor het Nederlands richtte tranScriptorium zich met name op vijftiende-eeuwse arteshandschriften.