Het project Corpus Gesproken Nederlands

Het project Corpus Gesproken Nederlands was gericht op de aanleg van een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Bij de start van het project werd een corpus beoogd met een omvang van circa tien miljoen woorden, waarvan twee derde afkomstig zou zijn uit Nederland, en een derde uit Vlaanderen. In totaal ging het daarbij om circa 1000 uur spraak. Het eindresultaat zoals beschikbaar in deze uitgave omvat ongeveer 9 miljoen woorden: zo'n 3,3 miljoen woorden daarvan zijn afkomstig uit Vlaanderen, ruim 5,6 miljoen woorden werden opgenomen in Nederland.

Het Corpus Gesproken Nederlands wordt gevormd door een selectie van een groot aantal fragmenten van spraakopnames. Al het materiaal werd orthografisch getranscribeerd, terwijl er tevens een oplijning plaatsvond waarbij de orthografische transcriptie gekoppeld werd aan het spraaksignaal. De orthografische transcriptie vormde het uitgangspunt voor de lemmatisering en de verrijking van het materiaal met woordsoortinformatie. Verder werd er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd, kwam er een geverifieerde oplijning op woordniveau beschikbaar en werd het materiaal door middel van een syntactische analyse verrijkt. Ten slotte werd een bescheiden deel van het corpus, circa 250.000 woorden, van een prosodische annotatie voorzien.

Al tijdens het project werden delen van het corpus in de vorm van tussentijdse releases ongeveer om de zes maanden beschikbaar gesteld. Met het verschijnen van deze, finale release komen alle eerdere releases te vervallen.

Het project werd gefinancierd door de Vlaamse en Nederlandse regering en door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). In totaal werd er een bedrag van circa 4,9 miljoen euro geïnvesteerd. De resultaten en alle rechten daarop zijn het eigendom van de Nederlandse Taalunie. Van het materiaal mag derhalve niets verveelvoudigd en/of openbaar gemaakt worden op welke wijze dan ook zonder voorafgaande schriftelijke toestemming van de Nederlandse Taalunie.

Het corpus is beschikbaar voor wetenschappelijk onderzoek en voor de ontwikkeling van niet-commerciële producten. In deze producten mogen de bijdragen van individuele personen niet op een herkenbare manier aanwezig zijn. Wie een commerciële licentie heeft, mag deze databank gebruiken voor het ontwikkelen van commerciële afgeleide producten zoals spraakherkenners en taalmodellen. De bijdragen van individuele personen mogen niet op een herkenbare manier aanwezig zijn in deze producten.

 


Achtergrond en motivatie

Het Nederlands is de officiële taal in Nederland (zo'n 15 miljoen sprekers), in Vlaanderen (zo'n 5,6 miljoen sprekers), in Suriname (zo'n 360.000 sprekers, waarvan ongeveer 50% in Nederland woont) en op de Nederlandse Antillen (zo'n 240.000 sprekers). Hoewel het varianten zijn van dezelfde taal bestaan er toch aanzienlijke verschillen tussen het Nederlands zoals dat in Nederland gesproken wordt en het Nederlands dat gesproken wordt in Vlaanderen. Deze verschillen doen zich voor op het gebied van de syntaxis, de morfologie, het lexicon en de fonetiek/fonologie.

In het veeltalige Europa moet het Nederlands concurreren met andere talen. Met name de invloed van het Engels is in toenemende mate merkbaar. Op een aantal terreinen lijkt het Nederlands te moeten wijken voor het Engels. Zo speelt het Nederlands in de ontwikkeling en toepassing van technologieën nog slechts een bescheiden rol. De belangrijke rol die het Engels speelt in het moderne taal- en spraaktechnologische onderzoek kan grotendeels verklaard worden door de beschikbaarheid van de benodigde onderzoeksbronnen, zoals grote databanken van gesproken en geschreven Engels. Voor het Nederlands ontbraken dergelijke bronnen tot dusver. Met behulp van een corpus gesproken Nederlands zal het mogelijk zijn om technologieën die voor het Engels ontwikkeld zijn ook op het Nederlands toe te passen. Op termijn kan dit verstrekkende gevolgen hebben voor de economische en culturele positie van het Nederlands in Europa. Tegen deze achtergrond hebben de regeringen van Nederland en Vlaanderen besloten te investeren in de aanleg van een corpus van gesproken Nederlands.

Behalve voor ontwikkelingen in de taal- en spraaktechnologie is het corpus van belang voor de taalkunde in brede zin. Tot nu toe waren alleen corpora van geschreven Nederlands beschikbaar. Dit heeft geleid tot een sterke focus op de beschrijving van aspecten van de geschreven taal, terwijl van het 'vluchtige' gesproken Nederlands vrijwel geen systematische kennis voorhanden is. Verder is een corpus gesproken Nederlands van belang voor het onderwijs. Een goed inzicht in het dagelijkse taalgebruik is onontbeerlijk voor de ontwikkeling van cursussen Nederlands als tweede taal alsmede voor het onderwijs Nederlands in het basisonderwijs en op de middelbare school.

 


Projectorganisatie

De eindverantwoordelijkheid van het CGN-project lag bij het bestuur. In het bestuur zaten zes leden met een evenredige vertegenwoordiging uit Vlaanderen en Nederland. De leden werden benoemd door de Vlaamse en Nederlandse financiers. Een van de Nederlandse bestuursleden vertegenwoordigde de Landelijke Onderzoekschool Taalkunde (LOT). Een vertegenwoordiger van de Nederlandse Taalunie - eigenaar van de resultaten van het CGN-project - woonde als waarnemer de bestuursvergaderingen bij. Voorzitter van het bestuur was aanvankelijk prof. dr. W.J.M. Levelt van het Max Planck Instituut voor Psycholïnguistiek. Bij zijn terugtreden werd het voorzitterschap overgenomen door prof. dr. S. Nooteboom van de Landelijke Onderzoeksschool Taalkunde (LOT), terwijl prof. dr. W. Vonk (eveneens verbonden aan het MPI; tevens KUN) tot het bestuur toetrad.

Het bestuur stelde een stuurgroep in. Die bestond uit experts vanuit de verschillende taalkundige (sub)disciplines en vanuit de taal- en spraaktechnologie. De stuurgroep was verantwoordelijk voor de daadwerkelijke uitwerking en uitvoering van het project.

De coördinatie van het project geschiedde vanuit twee locaties: Gent voor Vlaanderen en Nijmegen voor Nederland. Elke locatie had een eigen projectleider. De projectleiders hadden de dagelijkse leiding over het project. Zij waren verantwoordelijk voor de inhoudelijke voortgang van het project en voor de coördinatie tussen en binnen drie werkgroepen: corpusopbouw, signaalanalyse en corpusannotatie. De werkgroepen hadden de feitelijke uitvoering van de desbetreffende onderdelen van het project als taak. De werkgroep corpusopbouw was meer specifiek verantwoordelijk voor het ontwerp en opbouw van het corpus, de werving van sprekers en de acquisitie van opnames. De werkgroep signaalanalyse hield zich bezig met de ontwikkeling van het protocol en de procedures voor orthografische transcriptie, woordsegmentatie, fonetische transcriptie en prosodische annotatie. De werkgroep corpusannotatie was verantwoordelijk voor de POS-tagging, lemmatisering, lexicologische koppeling en syntactische annotatie.

De projectorganisatie werd ondersteund door het CGN-bureau.

 


Projectonderdelen

Het project had tot doel een corpus van ca. 1000 uur spraak (uitgeschreven zo'n tien miljoen woorden) samen te stellen dat een plausibele steekproef vormt van het hedendaags Nederlands zoals dat gesproken wordt in Vlaanderen en Nederland. Een derde van het materiaal werd in Vlaanderen verzameld, en twee derde in Nederland. De basisannotatie omvat de orthografische transcriptie en de verrijking met woordsoortinformatie en lemmatisering. Daarnaast werd een selectie van één miljoen woorden meer gedetailleerd geannoteerd.

Binnen het project werden de volgende onderdelen onderscheiden:

Corpusontwerp en -opbouw

Meer informatie over het ontwerp van het corpus en de motivatie daarvoor is hier te vinden. Ook wordt nader ingegaan op de opbouw van het corpus.

Opname en digitalisering

Voor een deel werden opnames in eigen beheer gemaakt, terwijl voor een ander deel ook werd samengewerkt met andere projecten, bedrijven, organisaties en instellingen. Het betreft hier o.a. het VNC-project 'De uitspraak van het Standaardnederlands', de blindenbibliotheken in Vlaanderen en Nederland, de VRT, diverse omroeporganisaties in Nederland, het Nederlands Instituut voor Beeld en Geluid, het archief van het Vlaams parlement en het ANP. Materiaal werd zo veel mogelijk aan de basis digitaal opgenomen. Wanneer gebruikgemaakt werd van bestaand materiaal waren digitale opnames echter niet altijd beschikbaar. Alle opnames werden - voor zover ze niet al in elektronische vorm waren binnengekomen - via een geluidskaart in een pc ingelezen. Met uitzondering van telefoonopnames werd het materiaal opgeslagen in een ongecomprimeerd 16 bits, 16 kHz WAVE-formaat (voor meer informatie, zie hier). Informatie over de opnameomstandigheden, de gebruikte apparatuur e.d. is beschikbaar als onderdeel van de metadata.  Geluidsbestanden kunnen worden beluisterd met het programma PRAAT of COREX, maar ook met de meeste andere afspeelprogramma's voor audio, op zowel pc's als andere platformen. Zowel PRAAT als COREX stellen de gebruiker in staat om - tegelijkertijd met het afspelen van de opname - de orthografische transcriptie te bekijken.

Orthografische transcriptie

Al het opgenomen materiaal werd orthografisch getranscribeerd. De orthografische transcriptie is een woordelijke neerslag van wat er gezegd werd. Het transcript is in overeenstemming met de regels die daarvoor zijn vastgelegd in een protocol (Goedertier & Goddijn, 2000; hier beschikbaar in .ps- en .pdf-formaat). Daarbij werden herhalingen, versprekingen, aarzelingen en dergelijke uitgeschreven; achtergrondgeluiden daarentegen werden alleen onder bepaalde voorwaarden in het transcript weergegeven. 

Om het transcriptieproces te vereenvoudigen werd gebruikgemaakt van het programma PRAAT dat door Paul Boersma aan de Universiteit van Amsterdam werd ontwikkeld. In PRAAT is het niet alleen mogelijk geluid af te spelen en te visualiseren, er kan tevens een orthografische transcriptie worden gemaakt en bekeken. Voor elke spreker is daarvoor een aparte 'tier' beschikbaar.

Tijdens het transcriptieproces werden in het audiosignaal korte stukjes van 2 à 3 seconden aangeduid door er tijdsmarkeringen in aan te brengen. Deze tijdsmarkeringen werden geplaatst in de pauzes tussen woorden. In een later stadium werden deze tijdsmarkeringen gebruikt als ankerpunten voor de automatische koppeling van de orthografische transcriptie met de audiofile.


(Foto: D. van Aalst, KUN)

Meer informatie over de orthografische transcriptie is te vinden op orthography/info.htm.

Lemmatisering en verrijking met woordsoortinformatie (POS-tagging)

Het volledige corpus werd getagd. Binnen het project werd daarvoor een eigen CGN-tagset gedefinieerd die 316 tags omvat en die aansluit bij de praktijk van de ANS (Haeseryn et al., 1997). De tagset is conform de EAGLES-richtlijnen die daarvoor opgesteld zijn in het kader van de internationale standaardisering en wordt beschreven in Van Eynde (2003; hier beschikbaar in .pdf-formaat).  Voor het taggen werd gebruikgemaakt van een daartoe aan de Universiteit van Tilburg ontwikkelde tagger die aan elk woord de meest waarschijnlijke tag toekende. De taggeroutput werd gecontroleerd en waar nodig handmatig gecorrigeerd. Voor het lemmatiseren werd gebruikgemaakt van een lemmatiser en ook hiervan werd de uitvoer handmatig gecorrigeerd. 

Meer informatie over de POS-tagging is te vinden op pos tagging/info.htm.
Meer informatie over de lemmatisering is te vinden op lemmatisation/info.htm.

Lexicologische koppeling

Binnen het project werd een CGN-lexicon ontwikkeld. Het lexicon is van belang gebleken voor de verschillende vormen van transcriptie en annotatie. Nu het project is afgerond, vervult het een belangrijke rol in de ontsluiting van de data. Door middel van een lexicologische koppeling werd het mogelijk een nadere lemmatisering te realiseren waarbij onder meer scheidbare werkwoorden en vreemdtalige meerwoordsuitdrukkingen gerelateerd werden aan de juiste lemmata. Het protocol dat daarbij gehanteerd werd (Piepenbrock 2004) is hier beschikbaar in .ps- en .pdf-formaat.

Meer informatie over de lexicologische koppeling is te vinden op lex linkup/info.htm.

Brede fonetische transcriptie

Voor ongeveer één miljoen woorden werd een (geverifieerde) brede fonetische transcriptie vervaardigd. Het protocol dat daarbij werd gehanteerd (Gillis, 2001) is hier beschikbaar in .ps- en .pdf-formaat. Voor de vervaardiging van de transcripties werd gebruikgemaakt van het programma PRAAT. 

Meer informatie over de brede fonetische transcriptie is te vinden op phonetics/info.htm.

(Foto: D. van Aalst, KUN)

Signaalkoppeling

Voor het materiaal waarvoor tevens een geverifieerde brede fonetische transcriptie beschikbaar is, werd het spraaksignaal op woordniveau gekoppeld aan het orthografisch transcript en werd het resultaat van deze oplijning handmatig geverifieerd. Het protocol is vastgelegd in Binnenpoorte (2002, 2004) en is hier beschikbaar in .ps- en .pdf-formaat). Voor het overige materiaal werden het signaal en het orthografisch transcript weliswaar (automatisch) gekoppeld, maar vond er geen verificatie plaats. 

Meer informatie over de woordsegmentatie is te vinden op word_align/info.htm.

Syntactische annotatie

Ten behoeve van de syntactische annotatie werd een annotatieschema ontwikkeld en vastgelegd in een protocol. Dit protocol (Hoekstra et al. 2003) is hier beschikbaar in .pdf-formaat. Voor het aanbrengen van de annotaties werd gebruikgemaakt van het in Saarbrücken ontwikkelde programma Annotate. Syntactische annotaties kunnen worden gevisualiseerd met behulp van het corpusexploitatieprogramma COREX. Daarnaast bestaat de mogelijkheid syntactische annotaties te bekijken met de door het OTS ontwikkelde visualisatiesoftware PORTRAY (zie hiervoor onder tools).

Meer informatie over de syntactische annotatie is te vinden op syntax/info.htm.

Prosodische annotatie

Ongeveer 250.000 woorden werden prosodisch geannoteerd. Daarbij werden de belangrijkste grenzen van woordgroepen (frasegrenzen) alsmede de één of twee belangrijkste woorden (zinsaccenten) van elke frase aangeduid. Het protocol (Martens 2003) is hier beschikbaar in .ps- en .pdf-formaat.

Meer informatie over de prosodische annotatie is te vinden op prosody/info.htm.

Ontwikkeling van exploitatiesoftware

Door de technische groep aan het MPI te Nijmegen werd in het kader van het CGN-project exploitatiesoftware ontwikkeld die gebruikers in staat moet stellen op eenvoudige en efficiënte wijze toegang te verkrijgen tot de data. 

Meer informatie over de exploitatiesoftware en de documentatie daarbij is te vinden op corex/info.htm.


Fasering

Het CGN-project kende een totale duur van ruim vijf jaar. De officiële startdatum lag op 1 juni 1998. Gedurende het eerste jaar van het project werd veel tijd geïnvesteerd in de motivatie van de corpusopbouw, in de ontwikkeling van verschillende protocollen (met name voor het maken van de opnames, de signaalverwerking, de registratie en opslag van data, en de orthografische en brede fonetische transcriptie) en in de selectie en aanpassing van ondersteunende tools en resources (zoals het lexicon). Vervolgens werd het corpus incrementeel opgebouwd. Het project werd op 1 maart 2004 afgerond. De resultaten kwamen beschikbaar in versie 1.0. In januari 2006 werd versie 2.0 van het CGN vrijgegeven. Een overzicht van de verschillen tussen versie 1.0 en 2.0 vindt u hier.


Verspreiding van resultaten

Delen van het corpus werden al tijdens de looptijd van het project ongeveer om de zes maanden beschikbaar gesteld. De release van de eerste tranche was in maart 2000. Tussen maart 2000 en november 2002 verschenen nog eens vijf tussentijdse releases. Met het verschijnen van versie 1.0 kwamen alle eerdere releases te vervallen.

Versie 1.0 omvatte de resultaten zoals die beschikbaar waren op 1 maart 2004 toen het project beëindigd werd en bestond in totaal uit 33 dvd's waarvan er 32 in beslag genomen werden door de geluidsbestanden die deel uitmaken van het corpus.

Versie 2.0 werd vrijgegeven in januari 2006. Versie 2.0 wordt gedistribueerd op een externe harde schijf. Een overzicht van de verschillen tussen versie 1.0 en 2.0 vindt u hier.

De distributie van het corpus - inclusief de geluidsopnames - wordt verzorgd door de TST-Centrale.


Publicaties

Naast de verschillende protocollen en werkdocumenten die tijdens het project werden geproduceerd, zijn er ook een aantal publicaties verschenen. Hierin worden diverse aspecten van de opbouw en annotatie van het CGN nader belicht. Voor een overzicht verwijzen we naar de hier opgenomen lijst met publicaties.