Een corpus is een verzameling teksten in geschreven of gesproken taal, aangelegd om een taal te kunnen bestuderen en beschrijven. Corpora leveren het basismateriaal voor woordenboeken, computationele lexica, grammatica’s en allerlei soorten onderzoek.
De samenstelling van een corpus hangt af van het doel van het corpus. Hetzelfde geldt voor de metadata die eraan worden toegevoegd. Metadata betekent eigenlijk ‘data over data’: gegevens met betrekking tot een tekst, zoals auteur, datering, genre, taal etc.
De woordenboeken van het Instituut voor de Nederlandse Taal (INT) zijn gebaseerd op corpusmateriaal. Het Woordenboek der Nederlandsche Taal en het Middelnederlandsch Woordenboek zijn gebaseerd op een analoog (‘papieren’) corpus van citaten uit een weloverwogen verzameling teksten. Het Oudnederlands, Vroegmiddelnederlands en Algemeen Nederlands Woordenboek zijn gebaseerd op digitale corpora.
Hedendaags Nederlands
Het hedendaags Nederlands wordt door het INT tegenwoordig gemonitord aan de hand van het Corpus Hedendaags Nederlands (CHN). Het corpus is taalkundig verrijkt met woordsoort en lemma en syntactisch geannoteerd.
Een substantieel deel van dit materiaal wordt voor onderzoekers beschikbaar gesteld. Daarnaast stelt het INT diverse corpora van derden ter beschikking (zie daarvoor onze website Taalmaterialen).
Historisch Nederlands
De historische corpora, tot stand gekomen op het INT of met het INT als een van de partners, zijn taalkundig verrijkt met woordsoort en hedendaags Nederlands lemma. Voor taalkundig onderzoek zijn corpora van hoge kwaliteit noodzakelijk. Daarbij is de transcriptiemethode belangrijk, maar ook goede metadata, en dan met name de datering en de lokalisering van het tekstmateriaal.
Door het INT gemaakte historische corpora zijn:
- Corpus Gysseling (bron van het Vroegmiddelnederlands Woordenboek)
- Corpus Oudnederlands (bron van het Oudnederlands Woordenboek)
- Corpus Middelnederlands (verzameling rijm- en prozateksten uit de periode 1300-1550)
Het INT heeft daarnaast meegewerkt aan Brieven als Buit en Brieven als Buit-2 (Nederlandse brieven uit de 17e en 18e eeuw, een selectie uit de ca. 40.000 zogeheten Sailing Letters uit de Britse archieven), Corpus Juridisch Nederlands, Couranten Corpus, Eindhoven-corpus (eerste verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten, uit de periode 1960-1973), Gekaapte brieven en aan Nederlab.
Gouden standaard
Van sommige taalkundig verrijkte INT-corpora is een gouden standaard voorhanden. Een gouden standaard is een dataset waarvan de annotatie handmatig is geverifieerd en daarom geacht wordt correct te zijn. Gouden standaarden worden gebruikt om tools mee te trainen om dezelfde annotaties automatisch te kunnen toepassen op tekstmateriaal.
Formaat
Het gebruikte formaat voor alle INT-corpora is TEI XML. TEI (the Text Encoding Initiative) is een consortium dat een standaard ontwikkelt en onderhoudt voor de weergave van teksten in digitale vorm.
Zoeksysteem
De INT-corpora worden online doorzoekbaar gemaakt met BlackLab: door het INT ontwikkelde corpuszoeksoftware met een bijbehorende snelle zoekapplicatie.