Corpus Hedendaags Nederlands (CHN)

English

Om het hedendaagse Nederlands te monitoren legt het INT het Corpus Hedendaags Nederlands (CHN) aan: een steeds groeiende tekstverzameling van inmiddels meer dan 800.000 teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal.

Er wordt naar gestreefd in dit corpus bronnen op te nemen waarvan we continu nieuw materiaal binnenkrijgen. Maar in principe komt al het tekstmateriaal dat in de diverse projecten van het INT gebruikt wordt in het CHN terecht, zoals bijvoorbeeld het ANW-corpus, dat was aangelegd voor het Algemeen Woordenboek der Nederlandse Taal.

De voorganger van het INT, het Instituut voor Nederlandse Lexicologie (INL), heeft sinds 1994 verschillende corpora van hedendaags Nederlands online gezet: de 5, 27 en 38 miljoenwoordencorpora en het Dutch Parole Internet Corpus. Het materiaal van deze oude corpora is toegevoegd aan het CHN.

Voor de eerste release (17 januari 2014) is een aanzienlijke hoeveelheid recenter materiaal (tot juni 2013) uit twee kranten toegevoegd: NRC Handelsblad en De Standaard. Voor de tweede uitgave (juni 2014) is van juli 2013 - december 2013 meer materiaal uit deze twee bronnen toegevoegd, evenals andere bronnen uit Suriname en de Nederlandse Antillen, zoals kranten, materiaal gepubliceerd op internet (blog, website) en boeken geschreven door Surinaamse auteurs.

Het CHN is automatisch taalkundig verrijkt met woordsoort en lemma. De aanwezigheid van metadata bij de teksten zorgt ervoor dat er in specifieke gedeeltes van het corpus gezocht kan worden.

Vanwege eisen van diverse dataleveranciers is het corpus alleen voor wetenschappelijk onderzoek toegankelijk. Rechtenkwesties zijn ook de oorzaak dat het interne CHN groter is dan het corpus dat we voor onderzoekers online ter beschikking kunnen stellen. Van het interne corpus stellen we wel de n-grammen ter beschikking.

Een grote update van de data en de applicatie is gepland voor het najaar van 2019. Vanaf dat moment zal het CHN iedere maand een update krijgen.

Corpus of Contemporary Dutch

In order to monitor contemporary Dutch, the Dutch Language Institute has created the Corpus of Contemporary Dutch (CHN): an ever-growing collection of already more than 800,000 texts from newspapers, magazines, news broadcasts and legal materials.

We try to include sources that continually provide us with new text materials. But in principle, all text materials used in the various projects of the Dutch Language Institute end up in the CHN, such as the ANW corpus, compiled for our Dictionary of Contemporary Dutch.

From 1994 onwards, the Institute for Dutch Lexicology (INL), predecessor of the Dutch Language Institute, put several corpora of contemporary Dutch online: the 5, 27 and 28 million words corpora, and the Dutch Parole Internet Corpus. The materials from these older corpora have been added to the CHN.

For the first release (January 17, 2014) a substantial amount of more recent materials (up to June 2013) from two newspapers, NRC Handelsblad and De Standaard were added. For the second release (June 2014), more materials from these two sources, dating from July 2013 to December 2013, were added, along with other sources from Suriname and the Netherlands Antilles: newspapers, materials published online (blogs, websites), and books by Surinamese authors.

The CHN has been automatically annotated with part of speech and lemma. The existence of metadata for these texts makes it possible to search specific parts of the corpus.

Because of the requirements made by several data suppliers, the corpus is only accessible for scientific research. Copyright issues are also the reason why the CHN for internal use is larger than the corpus we can make available to online researchers. However, the n-grams of the internal corpus have been made accessible.

A large update of the data and the application is planned for the autumn of 2019. From that moment on, the CHN will be updated monthly.

Op deze website maken wij gebruik van cookies.