Brieven als Buit
- Periode: 2008-2013
- Links: brievenalsbuit.nl, Zeebrieven op koers naar leesbaarheid (nieuwsbericht)
In het project Brieven als Buit werden 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden (o.a. zeelieden) en het thuisfront, taalkundig onderzocht aan de Universiteit Leiden. Daar zijn de brieven ook handmatig overgetikt (getranscribeerd) door vrijwilligers van het Leidse project Wikiscripta Neerlandica. De verzameling brieven is een goudmijn voor historici en taalkundigen, omdat er nog weinig bekend is over alledaags taalgebruik in die tijd. Het INL werkte mee aan taalkundige verrijking van de brieven. Dat betekent dat er aan de getranscribeerde woorden allerlei taalkundige informatie werd toegevoegd, zoals over spelling en woordsoort. De toevoeging van een moderne standaardvorm aan alle woorden en woordvormen (lemmatiseren) maakt de teksten beter doorzoekbaar. Het INL heeft daarnaast de zoekapplicatie ontwikkeld die op 5 september 2013 online is gegaan.
CLARIN
- Acroniem van: Common Language Resources and Technology Infrastructure
- Periode: 2009-2013
- Links: overzicht van alle deelprojecten, clarin.eu
Het doel van CLARIN was een geïntegreerde, interoperabele onderzoeksinfrastructuur realiseren met taalbronnen en taaltechnologie. De infrastructuur, die stabiel, permanent, toegankelijk en uitbreidbaar moet zijn, moet de huidige versnippering opheffen en gebruik van computationele technieken in de geesteswetenschappen (eHumanities) bevorderen. Binnen CLARIN was het INL betrokken bij verschillende deelprojecten zoals Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC en NAMESCAPE.
DAM-LR
- Acroniem van: Distributed Access Management for Language Resources
- Periode: 2005-2006
- Website: www.mpi.nl
In het project DAM-LR is gewerkt aan een infrastructuur voor toegang tot en beheer van taalarchieven. Voorbeelden van taalarchieven zijn (multimediale) corpora, lexica, grammatica’s etc. DAM-LR was in het klein wat het Europese CLARIN in het groot is. Veel onderdelen van de (werkende, prototypische) infrastructuur van DAM-LR zijn doorontwikkeld in CLARIN.
ELAN
- Acroniem van: European Language Activity Network
- Periode: 1998
- Website: cordis.europa.eu
ELAN had als doel alle data van de Europese onderzoeksgemeenschap op een uniforme manier toegankelijk te maken, met één vraagtaal en één userinterface. Om specifiek de data van PAROLE en TELRI toegankelijker te maken, heeft het INL, samen met de University of Birmingham en Università di Pisa, een Common Query Language gedefinieerd.
ENABLER
- Acroniem van: European National Activities for Basic Language Resources
- Periode: 2001-2003
- Website: www.ilc.cnr.it
ENABLER was een infrastructureel project met als doel meer samenwerking tussen nationale activiteiten op het gebied van ‘Language Resources’ (corpora, lexica, e.d.). Het Nederlandse taalgebied werd vertegenwoordigd door onder meer de Nederlandse Taalunie en het INL.
ENeL
- Acroniem van: European Network of e-Lexicography
- Periode: 2014-2018
- Links: COST-website, woordenboekportaal met kwalitatieve online woordenboeken van Europese talen
Het doel van het project was het opzetten van een Europees netwerk voor lexicologen dat de zichtbaarheid, de toegankelijkheid en het gebruik van de Europese nationale woordenboeken vergroot. Om dit doel te bereiken organiseerde het netwerk regelmatig internationale bijeenkomsten, workshops en trainingen. Het INL en de Fryske Akademy waren samen met partners uit 28 andere Europese landen verantwoordelijk voor de projectaanvraag bij COST: een organisatie die wetenschappelijke samenwerking in Europa stimuleert. Binnen het ENeL-project fungeerde het INL als Grant Holder en was daarnaast onderdeel van de stuurgroep.
IMPACT
- Acroniem van: IMProving ACcess to Text
- Periode: 2008-2012
- Website: digitisation.eu
IMPACT was een Europees project dat online historische teksten toegankelijker maakt. Daarvoor werden in dit project de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten geoptimaliseerd. Lees meer.
PAROLE
- Acroniem van: Preparatory Action for linguistic Resources Organisation for Language Engineering
- Periode: 1991-1999
- Website: cordis.europa.eu (PAROLE) en cordis.europa.eu (LE-PAROLE)
Het PAROLE-project voorzag in een groeiende behoefte aan moderne elektronische taalbronnen voor met name de taaltechnologie. Op grond van evaluatie- en haalbaarheidsstudies zijn er standaarden geformuleerd voor de opbouw en verrijking van tekstcorpora en lexica. Instituten uit 14 Europese landen hebben hieraan meegewerkt. Daarna is volgens diezelfde standaarden voor elk van de 14 talen een tekstcorpus en een computationeel lexicon gebouwd.
Als vertegenwoordiger van het Nederlandse taalgebied heeft het INL de volgende producten gemaakt:
- PAROLE-corpus
- PAROLE Distributable Corpus
- PAROLE-lexicon
SIMPLE
- Acroniem van: Semantic Information for Multifunctional Plurilingual Lexica
- Periode: 1998-2000
- Website: clul.ulisboa.pt
Het doel van SIMPLE was het toevoegen van semantische informatie aan de morfologische en syntactische informatie van het PAROLE-lexicon. De informatie is geselecteerd met het oog op de relevantie voor taaltechnologische toepassingen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.
Spelspiek
- Periode: 2007-2008
- Project: STEVIN-demonstratieproject
Spelspiek was een interactieve en automatische onlinespellinghulp. Het was een chatbot: een robot waarmee je een vraag-antwoordgesprek kan nabootsen. Aan Spelspiek kon bijvoorbeeld de volgende vraag gesteld worden: ‘Hoe spel je bjoetiekees?’ De chatbot gaf direct het juiste antwoord: beautycase. Spelspiek corrigeerde dus niet alleen spelfouten maar kon ook de juiste spelling geven van een woord dat opgeschreven werd zoals je het uitspreekt. Woorden die niet direct herkend werden (zowel nieuwe woorden als fout gespelde woorden), werden beoordeeld door een spellingdeskundige en vervolgens aan Spelspiek toegevoegd. Spelspiek leerde dus al doende bij. Spelspiek was oorspronkelijk een STEVIN-demonstratieproject (2007-2008). De service is per april 2019 opgeheven.
Succeed
- Acroniem van: Support Action Centre of Competence in Digitisation
- Periode: 2013-2014
Het project Succeed richtte zich op de bevordering van de implementatie en validatie van onderzoeksresultaten op het gebied van de massadigitalisering van tekstmateriaal. Lees verder (pdf) . Het INL was medeoprichter van het IMPACT Centre of Competence in Digitisation, leidde een van de werkpakketten en was met name verantwoordelijk voor de selectie, adaptatie, implementatie en evaluatie van textprocessingtools in bibliotheken.
TELRI
- Acroniem van: Trans-European Language Resources Infrastrucure
- Periode: 1995-1997
- Website: telri.nytud.hu
De doelstellingen van TELRI waren soortgelijk aan die van het PAROLE-project. Het richtte zich in eerste instantie vooral op het vormen van een netwerk tussen vertegenwoordigers van Oost-Europese talen en enige West-Europese talen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.
tranScriptorium
- Periode: 2013-2015
- Website: https://eadh.org/projects/transcriptorium
Wereldwijd worden er enorme hoeveelheden handgeschreven historische documenten online gezet door digitale bibliotheken. Die onbewerkte digitale afbeeldingen worden pas écht nuttig als ze met informatie zijn verrijkt. Het project tranScriptorium richtte zich op de ontwikkeling van innovatieve, rendabele oplossingen voor het indexeren, doorzoeken en volledig transcriberen van afbeeldingen van historische handgeschreven teksten. Dit werd gedaan met behulp van ‘Handwritten Text Recognition’-technologie. Het INL leidde een van de werkpakketten en was met name verantwoordelijk voor de lexica van de diverse talen en de taalmodellen die bij de handschriftherkenning gebruikt worden. Voor het Nederlands richtte tranScriptorium zich met name op vijftiende-eeuwse arteshandschriften. Lees verder (pdf).