Afgeronde projecten

English

Het Instituut voor de Nederlandse Taal (voorheen Instituut voor Nederlandse Lexicologie, INL) heeft de afgelopen jaren in samenwerkingsverband deelgenomen aan meerdere (Europese) projecten. Hieronder een selectie:

Brieven als Buit

Periode: 2008-2013
Links: www.brievenalsbuit.nl, http://www.kennislink.nl/publicaties/nieuwe-vondsten-in-oude-brieven, Zeebrieven op koers naar leesbaarheid, Het lemmatiseren van brieven uit de 17e en 18e eeuw

In het project Brieven als Buit werden 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden (o.a. zeelieden) en het thuisfront, taalkundig onderzocht aan de Universiteit Leiden. Daar zijn de brieven ook handmatig overgetikt (getranscribeerd) door vrijwilligers van het Leidse project Wikiscripta Neerlandica. De verzameling brieven is een goudmijn voor historici en taalkundigen, omdat er nog weinig bekend is over alledaags taalgebruik in die tijd. Het INL werkte mee aan taalkundige verrijking van de brieven. Dat betekent dat er aan de getranscribeerde woorden allerlei taalkundige informatie werd toegevoegd, zoals over spelling en woordsoort. De toevoeging van een moderne standaardvorm aan alle woorden en woordvormen (lemmatiseren) maakt de teksten beter doorzoekbaar. Het INL heeft daarnaast de zoekapplicatie ontwikkeld die op 5 september 2013 online is gegaan.

CLARIN

Acroniem van: Common Language Resources and Technology Infrastructure
Periode: 2009-2013
Links: overzicht van alle deelprojecten, www.clarin.eu

Het doel van CLARIN was een geïntegreerde, interoperabele onderzoeksinfrastructuur realiseren met taalbronnen en taaltechnologie. De infrastructuur, die stabiel, permanent, toegankelijk en uitbreidbaar moet zijn, moet de huidige versnippering opheffen en gebruik van computationele technieken in de geesteswetenschappen (eHumanities) bevorderen. Binnen CLARIN was het INL betrokken bij verschillende deelprojecten zoals Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC en NAMESCAPE.

DAM-LR

Acroniem van: Distributed Access Management for Language Resources
Periode: 2005-2006
Website: www.mpi.nl
Contact: Servicedesk, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

In het project DAM-LR is gewerkt aan een infrastructuur voor toegang tot en beheer van taalarchieven. Voorbeelden van taalarchieven zijn (multimediale) corpora, lexica, grammatica's etc. DAM-LR was in het klein wat het Europese CLARIN in het groot is. Veel onderdelen van de (werkende, prototypische) infrastructuur van DAM-LR zijn doorontwikkeld in CLARIN.

ELAN

Acroniem van: European Language Activity Network
Periode: 1998
Website: www.loria.fr of cordis.europa.eu
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

ELAN had als doel alle data van de Europese onderzoeksgemeenschap op een uniforme manier toegankelijk te maken, met één vraagtaal en één user interface. Om specifiek de data van PAROLE en TELRI toegankelijker te maken, heeft het INL, samen met de University of Birmingham en Università di Pisa, een Common Query Language gedefinieerd.

ENABLER

Acroniem van: European National Activities for Basic Language Resources
Periode: 2001-2003
Website: www.ist-world.org
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

ENABLER was een infrastructureel project met als doel meer samenwerking tussen nationale activiteiten op het gebied van 'Language Resources' (corpora, lexica, e.d.). Het Nederlandse taalgebied werd vertegenwoordigd door onder meer de Nederlandse Taalunie en het INL.

IMPACT

Acroniem van: IMProving ACcess to Text
Periode: 2008-2012
Website: http://www.digitisation.eu/
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

IMPACT was een Europees project dat online historische teksten toegankelijker maakt. Daarvoor werden in dit project de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten geoptimaliseerd. Lees meer.

PAROLE

Acroniem van: Preparatory Action for Linguistic Resources Organisation for Language Engineering
Periode: 1991-1999
Website: www.ist-world.org
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

Het PAROLE-project voorzag in een groeiende behoefte aan moderne elektronische taalbronnen voor met name de taaltechnologie. Op grond van evaluatie- en haalbaarheidstudies zijn er standaarden geformuleerd voor de opbouw en verrijking van tekstcorpora en lexica. Instituten uit 14 Europese landen hebben hieraan meegewerkt. Daarna is volgens diezelfde standaarden voor elk van de 14 talen een tekstencorpus en een computationeel lexicon gebouwd.

Als vertegenwoordiger van het Nederlandse taalgebied heeft het INL de volgende producten gemaakt:

  • PAROLE-corpus
  • PAROLE Distributable Corpus
  • PAROLE-lexicon

SIMPLE

Acroniem van:Semantic Information for Multifunctional Plurilingual Lexica
Periode: 1998-2000
Website: www.ub.es
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

Doel van SIMPLE was het toevoegen van semantische informatie aan de morfologische en syntactische informatie van het PAROLE-lexicon. De informatie is geselecteerd met het oog op de relevantie voor taaltechnologische toepassingen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

Succeed

Periode: 2013-2014
Website: www.succeed-project.eu

Succeed is een acroniem voor Support Action Centre of Competence in Digitisation. Het project richtte zich op de bevordering van de implementatie en validatie van onderzoeksresultaten op het gebied van de massadigitalisering van tekstmateriaal. Lees verder (pdf). Het INL was medeoprichter van het IMPACT Centre of Competence in Digitisation, leidde een van de werkpakketten en was met name verantwoordelijk voor de selectie, adaptatie, implementatie en evaluatie van textprocessingtools in bibliotheken.

TELRI

Acroniem van: Trans-European Language Resources Infrastrucure
Periode: 1995-1997
Website: telri.nytud.hu
Contactpersoon: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

De doelstellingen van TELRI waren soortgelijk aan die van het PAROLE-project. Het richtte zich in eerste instantie vooral op het vormen van een netwerk tussen vertegenwoordigers van Oost-Europese talen en enige West-Europese talen. Het INL was in dit project vertegenwoordiger van het Nederlandse taalgebied.

tranScriptorium

Periode: 2013-2015
Website: www.transcriptorium.eu

Wereldwijd worden er enorme hoeveelheden handgeschreven historische documenten online gezet door digitale bibliotheken. Die onbewerkte digitale afbeeldingen worden pas écht nuttig als ze met informatie zijn verrijkt. Het project tranScriptorium richtte zich op de ontwikkeling van innovatieve, rendabele oplossingen voor het indexeren, doorzoeken en volledig transcriberen van afbeeldingen van historische handgeschreven teksten. Dit werd gedaan met behulp van 'Handwritten Text Recognition'-technologie. Lees verder. Het INL leidde een van de werkpakketten en was met name verantwoordelijk voor de lexica van de diverse talen en de taalmodellen die bij de handschriftherkenning gebruikt worden. Voor het Nederlands richtte tranScriptorium zich met name op vijftiende-eeuwse arteshandschriften.

Finished projects

During the past few years, the Dutch Language Institute (formerly Institute for Dutch Lexicology, INL) has worked together with other parties on various national and European projects. A selection is presented below:

Letters as Loot

Time span: 2008-2013
Links: www.brievenalsbuit.nl, http://www.kennislink.nl/publicaties/nieuwe-vondsten-in-oude-brieven, Sea letters setting course for readability, The lemmatization of letters from the 17th and 18th century

In the ‘Letters as Loot’ project, 17th and 18th- century letters sent home by Dutch sailors from abroad to keep in touch with their loved ones (and vice versa) were linguistically examined at Leiden University. The letters have also been manually transcribed by volunteers from the Leiden-based project Wikiscripta Neerlandica. The collection of letters is a goldmine for historians and linguists, because little is known about the everyday language of that period. The INL contributed to the linguistic enrichment of the letters. That means that all kinds of linguistic information, for example about spelling and word class, were added to the transcribed words. The addition of a modern standard form to all words and forms (lemmatization) makes the text more searchable. The INL has also developed a search application that was launched on 5 September 2015.

CLARIN

Acronym for: Common Language Resources and Technology Infrastructure
Time span: 2009-2013
Links: overview of all sub-projects, www.clarin.eu

CLARIN’s objective is to realize an integrated, interoperable research infrastructure using language sources and language technology. The infrastructure, which is to be stable, permanent, accessible and expandable, must put an end to the current fragmentation and promote the use of computational technology in the humanities (eHumanities). Within CLARIN, the INL was involved in several sub-projects, such as Metadata, TICCLops, DUELME-LMF, GTB-WFT, VU-DNC and NAMESCAPE.

DAM-LR

Acronym for: Distributed Access Management for Language Resources
Time span: 2005-2006
Website: www.mpi.nl
Contact: Service desk, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

In the DAM-LR project, an infrastructure was developed providing access to and management of language archives. Examples of language archives include (multimedial) corpora, lexica, grammars, etc. DAM-LR was a small-scale version of the European CLARIN. Several parts of the (functional, prototypical) infrastructure of DAM-LR have been further developed in CLARIN.

ELAN

Acronym for: European Language Activity Network
Time span: 1998
Website: www.loria.fr or cordis.europa.eu
Contact: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

The objective of ELAN was to make all data from the European research community uniformly accessible, using a single query language and a single user interface. In order to specifically make the data from PAROLE and TELRI more accessible, the Dutch Language Institute, along with the University of Birmingham and Università di Pisa, has defined a Common Query Language.

ENABLER

Acronym for: European National Activities for Basic Language Resources
Time span: 2001-2003
Website: www.ist-world.org
Contact: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

ENABLER was an infrastructural project with the objective of promoting cooperation between national activities in the field of ’Language Resources’ (such as corpora and lexica). The Dutch-speaking world was represented by, among other institutions, the Dutch Language Union and the Dutch Language Institute.

IMPACT

Acronym for : IMProving ACcess to Text
Time span: 2008-2012
Website: http://www.digitisation.eu/
Contact: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

IMPACT was a European project that made online historical texts more accessible. In order to achieve this, the quality of the digitization and search methods in historical texts were optimized. Read more.

PAROLE

Acronym for: Preparatory Action for Linguistic Resources Organisation for Language Engineering
Time span: 1991-1999
Website: www.ist-world.org
Contact: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

The PAROLE project catered to a growing need for modern electronic language sources, to be used mainly for language technology. Standards for the construction and enrichment of text corpora and text lexica were formulated on the basis of evaluative and feasibility studies. Institutes from 14 European countries cooperated on this project. Subsequently, a text corpus and a computational lexicon were built for each of the 14 corresponding languages, following the same standards. As a representative of the Dutch-speaking world, the INL made the following products:

  • PAROLE Corpus
  • PAROLE Distributable Corpus
  • PAROLE Lexicon

SIMPLE

Acronym for: Semantic Information for Multifunctional Plurilingual Lexica
Time span: 1998-2000
Website: www.ub.es
Contact: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

The objective of SIMPLE was to add semantic information to the morphological and syntactic information already in the PAROLE lexicon. The information was selected on the basis of its usefulness to language- technological applications. The INL served as the representative for the Dutch-speaking world in this project.

Succeed

Acronym for: Support Action Centre of Competence in Digitization
Time span: 2013-2014
Website: www.succeed-project.eu

This project promoted the implementation and validation of research findings in the field of mass digitization of text material. Read more (pdf). The INL was a co-founder of the IMPACT Centre of Competence in Digitization. It led one of the work packages, and was primarily responsible for the selection, adaptation, implementation and evaluation of text processing tools in libraries.

TELRI

Acronym for: Trans-European Language Resources Infrastrucure
Time span: 1995-1997
Website: telri.nytud.hu
Contact: Katrien Depuydt, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.

The objectives of TELRI were similar to those of the PAROLE project. It focused primarily on forming a network between representatives of Eastern European languages and a few Western European ones. For this project, the INL served as the representative for the Dutch-speaking world.

tranScriptorium

Time span: 2013-2015
Website: www.transcriptorium.eu

An enormous number of hand-written historical documents are being placed online by digital libraries across the globe. The unedited digital images only become truly useful once they have been enriched with information. The tranScriptorium project focused on the development of innovative, cost-effective solutions for the indexation, searching, and complete transcription of images of historical hand-written texts. This was done with the help of Handwritten Text Recognition technology. Read more. The INL led one of the work packages, and was primarily responsible for the lexica of the various languages and language models used in handwriting recognition. For Dutch, tranScriptorium focused mainly on 15th-century artes manuscripts.

Op deze website maken wij gebruik van cookies.