CLARIAH

CLARIAH (Common Lab Research Infrastructure for the Arts and Humanities) is een samenwerkingsproject om een digitale infrastructuur voor de geesteswetenschappen tot stand te brengen. Het kan gezien worden als de opvolging (en uitbreiding) van CLARIN-NL. Grote hoeveelheden data en software uit verschillende geesteswetenschappelijke disciplines worden aan elkaar gekoppeld en digitaal doorzoekbaar gemaakt. CLARIAH richt zich op drie deelgebieden: taalkunde, mediastudies en sociaal-economische geschiedenis, die zich respectievelijk richten op het ontsluiten van tekstbestanden, het ontwikkelen van gereedschappen om audiovisuele bronnen te ontginnen, en het inzetbaar maken van gestructureerde databestanden. Het Instituut voor de Nederlandse Taal is betrokken in twee werkpakketten, namelijk Techniek (werkpakket 2) en Taalkunde (werkpakket 3).

Zoeken in databestanden

Onze expertise wordt met name ingezet op het gebied van zoeken in taalkundige databestanden. In het CLARIAH-project worden lexica, corpora, elektronische woordenboeken en niet-taalkundige databases doorzoekbaar gemaakt. Daarbij gaat het om lokaal zoeken in databestanden (local search), zoeken in bestanden die op verschillende locaties staan (federated search), en zoeken met gebruikmaking van verschillende types databestanden tegelijk (chaining search).

Semantisch lexicon DiaMaNT

DiaMaNT (Diachroon seMAntisch lexicon van de Nederlandse Taal) is een deelproject van CLARIAH en zal het ontwerp, de bouwwijze en een eerste versie van een diachroon semantisch lexicon van de Nederlandse taal opleveren. Het lexicon biedt een hulpmiddel voor tekstontsluiting en bij het onderzoek naar begrippen door de eeuwen heen. Het lexicon legt relaties tussen woordvormen en betekeniseenheden (concepten), en plaatst deze in de tijd. De bedoeling van het diachrone semantische lexicon is om diachrone onomasiologie, d.i. de veranderende uitdrukking/verbalisatie van een concept, en semasiologie, d.i. de verschuiving van betekenis(nuance) van woorden in de tijd, systematisch vast te leggen op een zodanige wijze dat de informatie voor mens en computer bruikbaar is.

Enerzijds dient de onomasiologische component de zoekmogelijkheden, omdat gerelateerde historische concepten kunnen worden toegevoegd aan een zoekvraag (slager → beenhouwer, beenhakker, vleeshouwer; boer → landman). Anderzijds draagt de semasiologische component (het in kaart brengen van betekenisverandering), bij aan de toegankelijkheid van historische tekst door de gebruiker erop te attenderen dat woorden in een bepaalde historische context een geheel andere betekenis kunnen hebben; zo is bv. de oudste betekenis van appel ‘vrucht in het algemeen’ (dus ook peren, pruimen etc.). Het lexicon wordt met name gebaseerd op de historische woordenboeken van het Instituut voor Nederlandse Lexicologie (gtb.inl.nl).