CLARIN

Doel van CLARIN

CLARIN wil een geïntegreerde, interoperabele onderzoeksinfrastructuur realiseren met taalbronnen en taaltechnologie. De infrastructuur, die stabiel, permanent, toegankelijk en uitbreidbaar moet zijn, moet de huidige versnippering opheffen en gebruik van computationele technieken in de geesteswetenschappen (eHumanities) bevorderen.

  • geïntegreerd: de bronnen- en servicecentra zijn door Grid-technologie verbonden en vormen één virtueel, geïntegreerd domein.
  • interoperabel: de bronnen en diensten zullen gebruik maken van de technologie van het semantische web, waarbij verschillen in formaat, structuur en gebruikte terminologie opgeheven zullen worden.
  • stabiel: de bronnen en diensten zijn in hoge mate beschikbaar.
  • persistent: de bronnen en diensten zullen op lange termijn nog steeds beschikbaar zijn voor onderzoek.
  • toegankelijk: de bronnen en diensten zijn op verschillende manieren via het web toegankelijk; daarvoor wordt training aangeboden, aangepast aan de behoeften van de gebruiker.
  • uitbreidbaar: de infrastructuur is open voor uitbreiding met nieuwe taalbronnen en diensten.

Doelgroep CLARIN

Clarin biedt zijn diensten aan voor:

  • taalkundigen: om hun modellen en tools (software) zo aan te passen dat ze alle taalmateriaal aankunnen.
  • geesteswetenschappers: door de toegang tot taalbronnen en taaltechnologie te vergemakkelijken.
  • de gemeenschap: door de toegang tot multiculturele en meertalige bronnen te vergemakkelijken.

INL en CLARIN-EU

De bijdrage van het INL ligt op het gebied van IPR en de wijze van samenwerking binnen CLARIN. Dat is terug te vinden in de volgende deliverables:

Nederlandse implementatie van ontwikkelde eResearch-infrastructuur

CLARIN-NL is verantwoordelijk voor het standaardiseren van bronmaterialen en het ontwikkelen en aanpassen van tools om met deze internationale standaarden om te gaan. CLARIN-NL zal bovendien de beoogde doelgroep opleiden en trainen in het gebruik van de infrastructuur ten bate van hun onderzoek.

Deelprojecten

Het INL is betrokken (geweest) bij de volgende CLARIN-deelprojecten:

  • CLARIN-NL Implementation Plan
  • Search & Develop
  • TTNWW CLARIN-VL-NL :TST-tools voor het Nederlands als Webservices in een Workflow
  • Metadata Component Creation & Testing Toolkit
  • TICCLops: Text-Induced Corpus Clean-up online processing system
  • TQE: Transcription Quality Evaluation
  • DUELME-LMF: Converting DUELME into LMF format
  • GTB-WFT
  • VU-DNC

Infrastructure Implementation

Ontwikkelen van een voorbeeldomgeving voor CLARIN-centra

Deze omgeving dient services (diensten) te bieden op het gebied van archivering, curatie, eenvoudige ontsluiting via metadata, beveiliging via single sign-on, maken en beheren van virtuele collecties en een raamwerk van webservices. Deze services dienen zoveel mogelijk gebruik te maken van openstandaarden en open source software.

Coördinatie van de CLARIN-centra

Het INL is een van de beoogde CLARIN-centra en is mede verantwoordelijk voor de coördinatie van de voortgang en samenhang van de CLARIN-centra. Verder coördineert het INL de aansluiting op de CLARIN-EU-federatie met als aandachtgebied infrastructuurbeveiliging zoals AAI (Authenticatie en Autorisatie Infrastructuur) en SSO (Single Sign-On).

Looptijd project

Het project is gestart op 01-09-2010 en had een looptijd van 3 jaar.

Search and Develop

Ontwikkelen van een zoekmachine naar taal- en metadata

Doel is om een generieke zoekmachine te ontwikkelen waarmee gezocht kan worden in metadata en taaldata, beschikbaargesteld in de diverse CLARIN-centra in Nederland. Dit vereist een goede samenwerking tussen de CLARIN-centra, en een goed opgezette infrastructuur in die centra.CLARIN-NL wil hiermee het voortouw nemen in Europa.

INL en Search and Develop

Het INL heeft als taak de INL resource(s) te ontsluiten via een webservice die aangesloten kan worden aan de centrale (federatieve) CLARIN zoekinterface.

Looptijd project

Het project is gestart op 01-09-2010 en had een looptijd van 3 jaar.

Taal- en Spraaktechnologietools voor het Nederlands als Webservices in een Workflow (TTNWW)

Verbeterde toegankelijkheid voor de onderzoeker van tekst- en spraaktools

Het project beoogt technologische faciliteiten op het gebied van tekst en spraak toegankelijk te maken voor een brede groep onderzoekers in de geesteswetenschappen met geen of weinig technische bagage. Deze faciliteiten moeten deze onderzoekers in staat stellen hun onderzoeksvragen beter en/of gemakkelijker aan te pakken en hen mogelijkheden bieden voor het formuleren van nieuwe types onderzoeksvragen die tot nog toe niet te beantwoorden waren. Het gaat hierbij vooral om faciliteiten die gebruikt zijn in/gemaakt zijn voor verschillende STEVIN-projecten (http://taalunieversum.org/taal/technologie/stevin). Een belangrijk doel van het project is de in Nederland en Vlaanderen gangbare standaarden voor dataformaten en interfaces tussen tools en protocollen te promoten en te toetsen aan de initiatieven in Europees verband, naast het toegankelijk maken van de faciliteiten voor onderzoek door geesteswetenschappers.

INL en TTNWW

Het INL functioneert naast het MPI als beoogd CLARIN-centre voor dit project.

Looptijd project

Het project is gestart op 01-03-2010 en had een looptijd van 3 jaar.

Metadataproject (CLARIN-NL)

Basis leggen voor gebruik van componentmetadata

In het CLARIN-EU-project werd een ontwerp ontwikkeld voor de CLARIN Metadata Infrastructuur (CMDI), met de bedoeling één enkel uitwisselbaar formaat voor metadatabeschrijvingen te maken dat kan dienen voor alle materialen van de CLARIN-centra. Het concept van componentmetadata lag aan de basis van dat ontwerp. Componentmetadata verwijst naar groepen van metadata-elementen die gerelateerde aspecten van een materiaal beschrijven. Alle metadata-elementen moeten gelinkt worden aan een concept in de ISOCat Data Category Registry ten behoeve van semantische interoperabiliteit. Leveranciers van materialen kunnen bestaande componenten hergebruiken of er zelf creëren, waarna de componenten gegroepeerd worden in een metadataschema waarvan de leveranciers menen dat dat het meest geschikt is om een bepaald type materiaal te beschrijven.
Het CLARIN-NL Metadataproject heeft de uitvoerbaarheid van deze aanpak getest door een aantal materialen te beschrijven van twee CLARIN-centra: het INL en het Meertens Instituut. Het project heeft ook een set van metadatacomponenten opgeleverd die als basis gebruikt worden voor de CLARIN-EU metadata component registry en ook een bestpracticeguide voor CMDI-gebruikers.

INL en het Metadataproject

De TST-Centrale heeft de metadatabeschrijving van een aantal INL-materialen op zich genomen, meegewerkt aan de creatie van een set metadatacomponenten en –schema’s voor corpora en lexica en aan het schrijven van de bestpracticeguide.

Looptijd project

Het project duurde zeven maanden en liep van september 2009 tot en met maart 2010.

TICCLops (CLARIN-NL)

Tekstnormalisatie en spellingcontrole van corpora

Voor CLARIN-gebruikers wordt binnen het TICCLops-project (Text-Induced Corpus Clean-up online processing system) een volledig automatische tool ontwikkeld voor spellingcontrole en tekstnormalisatie van corpora.

INL en TICCLops

De TST-Centrale van het INL treedt voornamelijk op als intermediair tussen de afdeling IT en de externe projectpartners.

Looptijd project

Het project duurde zes maanden en liep van februari 2010 tot augustus 2010.

Transcription Quality Evaluation (CLARIN-NL)

Automatisch fonetische transcripties op kwaliteit beoordelen

Het CLARIN-project Transcription Quality Evaluation (TQE) heeft als doel een webapplicatie te ontwikkelen waarin fonetische transcripties automatisch op kwaliteit worden beoordeeld. De applicatie kan audiobestanden automatisch oplijnen met fonetische transcripties, foneemgrenzen bepalen en voor elke segment-foneemcombinatie aangeven hoe goed de match is (op een schaal van 0-100).

INL en TQE

De TST-Centrale van het INL werkte mee in de voorbereidende fase van het project en hield een enquête onder contacten van de TST-Centrale, het Max Planck Instituut en de afdeling CLST van de Radboud Universiteit Nijmegen.

Looptijd project

Het project duurde zes maanden en liep van april 2010 tot juni 2011.

DuELME-LMF (CLARIN-NL)

Formaatconversie van meerwoordlexicon

DuELME (Dutch Electronic Lexicon of Multiword Expressions) is een lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies. Het doel van het DuELME-LMF-project is enerzijds het ontwikkelen en beschikbaar stellen van converteersoftware die het DuELME-formaat omzet in LMF-formaat en vice versa. Anderzijds wordt er een versie van DuELME ontwikkeld die voldoet aan de CLARIN-standaarden.

INL en DuELME-LMF

De taak van het INL binnen het DuELME-LMF-project is tweeledig: ten eerste beheert de TST-Centrale van het INL samen met de afdeling IT de converteersoftware en stelt ze die beschikbaar. Dat houdt ook in dat de TSTC onderhoud organiseert, een helpdesk aanbiedt en over gebruiksgegevens kan rapporteren. Ten tweede zorgt de TST-Centrale voor beheer en beschikbaarstelling van de DuELME-database.

Looptijd project

Het project duurt zes maanden en liep van begin maart tot eind augustus 2010.

WFT-GTB

Integratie van het Wurdboek fan de Fryske taal in de Taalbank Nederlands

Looptijd project

Het project liep van 1-9-2009 tot 1-5-2010.

VU-DNC

Beschikbaar maken van een diachroon krantencorpus voor hergebruik

Het doel van het project is om een taalkundig verrijkt, diachroon krantencorpus (1950/1951 en 2002) beschikbaar te maken voor hergebruik. Hiervoor wordt het corpus aangepast aan de standaarden van CLARIN en het SoNaR-corpus.

INL en VU-DNC

Het INL stelt het corpus beschikbaar via de TST-Centrale.

Looptijd project

Het project liep van 1-3-2010 tot 1-11-2010.

NAMESCAPE

Geschikt maken van taalkundige tools rond automatische naamherkenning voor letterkundig corpus-onderzoek

Recent onderzoek heeft overtuigend aangetoond dat onderzoek naar namen in literaire werken alleen substantieel aan waarde wint als deze bestudeerd worden in een bredere context (het landschap) van namen in de zelfde tekst of in gerelateerd materiaal. Er is onderzoek nodig dat gebaseerd is op grotere corpora om beter te kunnen onderzoeken wat bijvoorbeeld karakteristiek is voor het gebruik en de keuze van namen in een bepaalde periode, voor een bepaald genre, voor een auteur e.d. Data voor dit onderzoek bestaat niet op deze schaal. Het project wil deze lacune verhelpen door een substantiële hoeveelheid literaire werken te verrijken met een rijke tagset die diepgaand namenonderzoek mogelijk maakt en door een werkomgeving waarin ook diverse visualiseringstools ter beschikking zijn die resultaten uit de corpora inzichtelijker maken. De belangrijkste tools zullen beschikbaar worden gesteld als CLARIN compliant webservices via het INL als CLARIN centre.

Looptijd project

Het project liep van 1-5-2012 tot 30-04-2013.

Projectwebsite NAMESCAPE