Om het hedendaagse Nederlands te monitoren legt het Instituut voor de Nederlandse Taal (INT) het Corpus Hedendaags Nederlands (CHN) aan: een steeds groeiende tekstverzameling van inmiddels meer dan 800.000 teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal.
Inhoud van het CHN
We streven ernaar om in dit corpus bronnen op te nemen waarvan we continu nieuw materiaal binnenkrijgen. Maar in principe komt al het tekstmateriaal dat in de diverse projecten van het INT gebruikt wordt in het CHN terecht, zoals het ANW-corpus (1970 tot nu), dat was aangelegd voor het Algemeen Nederlands Woordenboek.
De voorganger van het INT, het Instituut voor Nederlandse Lexicologie (INL), heeft sinds 1994 verschillende corpora van hedendaags Nederlands online gezet: de 5, 27 en 38 miljoenwoordencorpora en het Dutch PAROLE Internet Corpus. Het materiaal van deze corpora is toegevoegd aan het CHN.
Vlaanderen, Nederland, Suriname en de Antillen
Voor de eerste release (januari 2014) is een aanzienlijke hoeveelheid recenter materiaal (tot juni 2013) uit twee kranten toegevoegd: NRC Handelsblad en De Standaard. Voor de tweede uitgave (juni 2014) is van juli 2013 – december 2013 meer materiaal uit deze twee bronnen toegevoegd, evenals andere bronnen uit Suriname en de Nederlandse Antillen, zoals kranten, materiaal gepubliceerd op internet (blogs, websites) en boeken geschreven door Surinaamse auteurs.
Het CHN is automatisch taalkundig verrijkt met woordsoort en lemma. De aanwezigheid van metadata bij de teksten (titel, auteur, taal, publicatiejaar, medium) zorgt ervoor dat er in specifieke gedeeltes van het corpus gezocht kan worden. Wie bijvoorbeeld alleen in krantenteksten van de laatste tien jaar wil zoeken, kan dat eenvoudig doen.
Toegankelijk voor wetenschappelijk onderzoek
Vanwege eisen van diverse dataleveranciers is het corpus alleen voor wetenschappelijk onderzoek toegankelijk, met een gebruikersnaam en wachtwoord. Vanwege rechtenkwesties staat een deel van het CHN alleen ter beschikking van het Instituut voor de Nederlandse Taal. Onderzoekers van buiten kunnen die teksten niet integraal inzien, maar we kunnen wel n-grammen uit ons interne corpus leveren. Een n-gram is een reeks opeenvolgende woorden in een lopende tekst, waarbij n staat voor het aantal woorden.
Na een grote update van de data en de applicatie, die op dit moment wordt voorbereid, zal het CHN iedere maand een update krijgen.