Het Corpus Gesproken Nederlands (CGN) is een verzameling van 900 uur (bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. De spraakfragmenten (spontaan en voorbereid) zijn opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Metadata, lexica, frequentielijsten en de corpusexploratiesoftware Corex behoren ook tot het CGN.
Naast het Corpus Gesproken Nederlands zijn de CGN-annotaties ook apart te verkrijgen. Deze annotaties zijn identiek aan het volledige Corpus Gesproken Nederlands, maar dan zonder de geluidsbestanden.
Verzend- en afhandelingskostenVanwege de hoeveelheid data kan dit product ook aangevraagd worden op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor. De kosten gelden zowel voor commercieel als niet-commercieel gebruik en staan los van de prijs van het product. |
Jaar: | 2014 |
Opdrachtgever: | NWO/NTU |
Financier: | Vlaamse en Nederlandse regering en NWO |
Eigenaar: | Taalunie |
Aantal uren spraak: | 900 |
Dataformaat: | Spraakbestanden (wav), annotaties (xml en txt) |
Software: | Corex |
Talen: | Nederlands, Vlaams |
Refereren: | Corpus Gesproken Nederlands - CGN (Version 2.0.3) (2014) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-k6 |
Webcursus: | CGN-webcursus |
Documentatie: | Over het Corpus Gesproken Nederlands (pdf) Zoekacties en codes in het CGN (pdf) |
Project: | Corpus Gesproken Nederlands |
Projectwebsite: | CGN-website |
Toepassing: | Onderzoek, testen van spraakherkenners |
Bestandsnaam: | 20151207_CGN_2_0_3.tgz |
Versie: | 2.0.3 |
Bestandsgrootte: | 94.17 GB |
Bestandstype: | application/x-compressed-tar |
Aanmaakdatum: | 12-03-2018 |