Corpus Gesproken Nederlands (CGN)

Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaags Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN.

Naast het Corpus Gesproken Nederlands zijn de CGN-annotaties ook apart te verkrijgen. Deze annotaties zijn identiek aan het volledige Corpus Gesproken Nederlands, maar dan zonder de geluidsbestanden.

Verzend- en afhandelingskosten

Vanwege de hoeveelheid data kan dit product ook aangevraagd worden op een externe harde schijf. Hier rekent het INL € 100,00 verzend- en afhandelingskosten voor.

De kosten gelden zowel voor commercieel als niet-commercieel gebruik en staan los van de prijs van het product.

Productdetails

Jaar: 2014
Opdrachtgever: NWO/NTU
Financier: Vlaamse en Nederlandse regering en NWO
Eigenaar: Taalunie
Aantal uren spraak: 900
Dataformaat: Spraakbestanden (wav), annotaties (xml en txt)
Software: Corex
Talen: Nederlands, Vlaams
Webcursus: CGN-webcursus
Documentatie: Over het Corpus Gesproken Nederlands (pdf)
Zoekacties en codes in het CGN (pdf)
Project: Corpus Gesproken Nederlands
Projectwebsite: CGN-website
Toepassing: Onderzoek, testen van spraakherkenners

Downloaddetails

File Name: 20151207_CGN_2_0_3.tgz
Version: 2.0.3
File Size: 94.17 GB
File Type: application/x-compressed-tar
Created Date: 12-03-2018
Om Corpus Gesproken Nederlands (CGN) te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.

Op deze website maken wij gebruik van cookies.