Categorieën
Corpora & lexica

Corpus Hedendaags Nederlands

Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 2.500.000 teksten uit kranten, tijdschriften, journaaluitzendingen, blogs, websites en romans. Het corpus is automatisch aangevuld met taalkundige informatie zoals woordsoort en lemma.

English version

Corpus of Contemporary Dutch

In order to monitor contemporary Dutch, the Dutch Language Institute has created the Corpus of Contemporary Dutch (CHN): an ever-growing collection of already more than 2,500,000 texts from newspapers, magazines, news broadcasts, blogs and books from the Netherlands, Belgium, Suriname and the Dutch Caribbean.

Contents of the CHN

We try to include sources in this corpus that continually provide us with new text materials. But in principle, all text materials used in the various projects of the Dutch Language Institute end up in the CHN, such as the ANW corpus (1970 – now), compiled for our Dictionary of Contemporary Dutch.

From 1994, the Institute for Dutch Lexicology (INL), predecessor of the INT, put several corpora of contemporary Dutch online: the 5, 27 and 38 Million Words Corpora and the Dutch PAROLE Internet Corpus. The materials from these older corpora have been added to the CHN.

Flanders, the Netherlands, Suriname and the Netherlands Antilles

For the first release (January 2014), a substantial amount of more recent materials (up to June 2013) from two newspapers, NRC Handelsblad and De Standaard, were added. For the second release (June 2014), more materials from these two sources, dating from July 2013 to December 2013, were added, along with other sources from Suriname and the Netherlands Antilles: newspapers, materials published on the internet (blogs, websites), and books by Surinamese authors. New about this second version of the CHN was for example the addition of various Flemish newspapers, such as the Gazet van Antwerpen and Het Belang van Limburg.

The CHN has been automatically annotated with part of speech and lemma. The metadata accompanying these texts (title, author, language, publication year, medium) make it possible to search specific parts of the corpus, for example just newspaper texts dating from the last decade.

Accessible for scientific research

Because of the requirements made by several data suppliers, the corpus is only accessible for scientific research. Users need a username and password. Because of copyright issues, part of the CHN is only available to the Dutch Language Institute. Other researchers do not have access to the integral version of the texts. However, the n-grams of our internal corpus have been made accessible. An n-gram is a series of sequential words in a running text, ‘n’ representing the number of words.

The CHN is updated every month.


Applications/products

Om het hedendaagse Nederlands te monitoren legt het Instituut voor de Nederlandse Taal (INT) het Corpus Hedendaags Nederlands (CHN) aan: een steeds groeiende tekstverzameling van inmiddels meer dan 2.500.000 teksten uit kranten, tijdschriften, journaaluitzendingen, blogs en boeken uit Nederland en de Caribische rijksdelen, België en Suriname.  

Inhoud van het CHN

We streven ernaar om in dit corpus bronnen op te nemen waarvan we continu nieuw materiaal binnenkrijgen. Maar in principe komt al het tekstmateriaal dat in de diverse projecten van het INT gebruikt wordt in het CHN terecht, zoals het ANW-corpus (1970 tot nu), dat was aangelegd voor het Algemeen Nederlands Woordenboek.

De voorganger van het INT, het Instituut voor Nederlandse Lexicologie (INL), heeft sinds 1994 verschillende corpora van hedendaags Nederlands online gezet: de 5, 27 en 38 miljoenwoordencorpora en het Dutch PAROLE Internet Corpus. Het materiaal van deze corpora is toegevoegd aan het CHN.

Vlaanderen, Nederland, Suriname en de Antillen

Voor de eerste release (januari 2014) is een aanzienlijke hoeveelheid recenter materiaal (tot juni 2013) uit twee kranten toegevoegd: NRC Handelsblad en De Standaard. Voor de tweede uitgave (juni 2014) is van juli 2013 – december 2013 meer materiaal uit deze twee bronnen toegevoegd, evenals andere bronnen uit Suriname en de Nederlandse Antillen, zoals kranten, materiaal gepubliceerd op internet (blogs, websites) en boeken geschreven door Surinaamse auteurs. Nieuw in deze tweede versie van het CHN was onder andere de uitbreiding van het krantenmateriaal met verschillende Vlaamse kranten, zoals de Gazet van Antwerpen en Het Belang van Limburg.

De huidige release van het CHN is een sterk uitgebreide versie van de twee eerdere versies. Op dit moment bevat het corpus al meer dan 2,5 miljoen teksten uit onder meer boeken, blogs, kranten, tijdschriften en journaaluitzendingen. Samen zijn deze teksten goed voor meer dan 1 miljard woorden. Elke maand zal het CHN een update krijgen.

Het CHN is automatisch taalkundig verrijkt met woordsoort en lemma. De aanwezigheid van metadata bij de teksten (titel, auteur, taal, publicatiejaar, medium) zorgt ervoor dat er in specifieke gedeeltes van het corpus gezocht kan worden. Wie bijvoorbeeld alleen in krantenteksten van de laatste tien jaar wil zoeken, kan dat eenvoudig doen.

Toegankelijk voor wetenschappelijk onderzoek

Vanwege eisen van diverse dataleveranciers is het corpus alleen voor wetenschappelijk onderzoek toegankelijk, met een gebruikersnaam en wachtwoord. Vanwege rechtenkwesties staat een deel van het CHN alleen ter beschikking van het Instituut voor de Nederlandse Taal. Onderzoekers van buiten kunnen die teksten niet integraal inzien, maar we kunnen wel n-grammen uit ons interne corpus leveren. Een n-gram is een reeks opeenvolgende woorden in een lopende tekst, waarbij n staat voor het aantal woorden.

Het CHN krijgt maandelijks een update.


Applicaties/producten