Om het hedendaagse Nederlands te monitoren legt het Instituut voor de Nederlandse Taal (INT) het Corpus Hedendaags Nederlands (CHN) aan: een steeds groeiende tekstverzameling van inmiddels meer dan 2.500.000 teksten uit kranten, tijdschriften, journaaluitzendingen, blogs en boeken uit Nederland en de Caribische rijksdelen, België en Suriname.
Kennisclip: wat kun je vinden in het Corpus Hedendaags Nederlands?
Inhoud van het CHN
We streven ernaar om in dit corpus bronnen op te nemen waarvan we continu nieuw materiaal binnenkrijgen. Maar in principe komt al het tekstmateriaal dat in de diverse projecten van het INT gebruikt wordt in het CHN terecht, zoals het ANW-corpus (1970 tot nu), dat was aangelegd voor het Algemeen Nederlands Woordenboek.
De voorganger van het INT, het Instituut voor Nederlandse Lexicologie (INL), heeft sinds 1994 verschillende corpora van hedendaags Nederlands online gezet: de 5, 27 en 38 miljoenwoordencorpora en het Dutch PAROLE Internet Corpus. Het materiaal van deze corpora is toegevoegd aan het CHN.
Vlaanderen, Nederland, Suriname en de Antillen
Voor de eerste release (januari 2014) is een aanzienlijke hoeveelheid recenter materiaal (tot juni 2013) uit twee kranten toegevoegd: NRC Handelsblad en De Standaard. Voor de tweede uitgave (juni 2014) is van juli 2013 – december 2013 meer materiaal uit deze twee bronnen toegevoegd, evenals andere bronnen uit Suriname en de Nederlandse Antillen, zoals kranten, materiaal gepubliceerd op internet (blogs, websites) en boeken geschreven door Surinaamse auteurs. Nieuw in deze tweede versie van het CHN was onder andere de uitbreiding van het krantenmateriaal met verschillende Vlaamse kranten, zoals de Gazet van Antwerpen en Het Belang van Limburg.
De huidige release van het CHN is een sterk uitgebreide versie van de twee eerdere versies. Op dit moment bevat het corpus al meer dan 2,5 miljoen teksten uit onder meer boeken, blogs, kranten, tijdschriften en journaaluitzendingen. Samen zijn deze teksten goed voor meer dan 1 miljard woorden. Elke maand zal het CHN een update krijgen.
Het CHN is automatisch taalkundig verrijkt met woordsoort en lemma. De aanwezigheid van metadata bij de teksten (titel, auteur, taal, publicatiejaar, medium) zorgt ervoor dat er in specifieke gedeeltes van het corpus gezocht kan worden. Wie bijvoorbeeld alleen in krantenteksten van de laatste tien jaar wil zoeken, kan dat eenvoudig doen.
Toegankelijk voor wetenschappelijk onderzoek
Vanwege eisen van diverse dataleveranciers is het corpus alleen voor wetenschappelijk onderzoek toegankelijk, met een gebruikersnaam en wachtwoord. Vanwege rechtenkwesties staat een deel van het CHN alleen ter beschikking van het Instituut voor de Nederlandse Taal. Onderzoekers van buiten kunnen die teksten niet integraal inzien, maar we kunnen wel n-grammen uit ons interne corpus leveren. Een n-gram is een reeks opeenvolgende woorden in een lopende tekst, waarbij n staat voor het aantal woorden.
Het CHN krijgt maandelijks een update.