Het Gesproken Corpus van de zuidelijk-Nederlandse Dialecten (GCND) is een taalkundig geannoteerd corpus, gebaseerd op een unieke collectie van dialectopnames (Stemmen uit het Verleden) uit 768 verschillende plaatsen in België, het noorden van Frankrijk en het zuiden van Nederland bij in het algemeen weinig mobiele en laagopgeleide sprekers geboren rond 1900. De opnames werden op initiatief van twee Gentse dialectologen, Willem Pée en Valeer Vanacker, vervaardigd. Hiervan zijn er 740 tussen 1963 en 1976 aan de UGent gemaakt. De Gentse collectie werd binnen het GCND aangevuld met nieuwe opnames (30 opnames uit Brussel, Vlaams-Brabant en Limburg) en bestaande opnames van het Meertens Instituut (73 opnames uit het zuiden van Nederland).

De opnames werden volgens een nieuw ontwikkeld transcriptieprotocol getranscribeerd – hoogdringend in tijden van snel vorderend dialectverlies! – om vervolgens met bestaande tools taalkundig verrijkt te worden met informatie over de woordsoort van de individuele woorden (‘PoS-tags’) en met informatie over de syntactische functies van de woordgroepen en hun onderlinge relatie (‘parsing’). Een gedetailleerde beschrijving van het transcriptieproces en de taalkundige verrijking is hier te vinden.
In vergelijking met bestaande datacollecties over de Nederlandse dialecten zoals de Reeks Nederlandse Dialectatlassen (RND), de MAND, de FAND en de SAND, is het GCND uniek omdat het alleen spontane spraak bevat. Vooral voor syntactisch onderzoek is spontaan taalgebruik als aanvulling op systematische bevragingen (zoals die van de SAND) erg belangrijk, omdat bepaalde syntactische constructies moeilijk opvraagbaar zijn. Vaak zijn sprekers zich er immers niet van bewust dat ze bepaalde constructies gebruiken.
Aangezien de dialectopnames een historisch stadium van de taal representeren (in het geval van het Frans-Vlaams zelfs de laatste getuigenissen van een inmiddels nagenoeg uitgestorven taalvariëteit) en de opnames nu makkelijk doorzoekbaar zijn, maakt het GCND het mogelijk om (i) taalveranderingsprocessen geografisch in kaart te brengen, (ii) de functionaliteit van dialectkenmerken kwantitatief te onderzoeken en (iii) nieuwe, voorheen onopgemerkte en dus onbevraagde structuren op te sporen. Het GCND vormt dus een historisch dialectcorpus zonder weerga.
Versie 1 (24-10-2024)
Op 24-10-2024 zitten er al 650 opnames uit 639 verschillende plaatsen in het corpus. Van de 650 transcripties zijn er al 344 gecontroleerd en van de 344 gecontroleerde transcripties zijn er al 289 taalkundig verrijkt. 70 daarvan zijn ook al manueel nagekeken.
Partners
Dit is een project van de Universiteit Gent in samenwerking met onderstaande partners:
- Instituut voor de Nederlandse Taal
- Meertens Instituut
- Rijksuniversiteit Groningen
- Variaties vzw
Applicaties/producten
- Zoeken in het GCND [via een CLARIN-account]
Meer lezen
- Gedetailleerde beschrijving van het transcriptieproces en de taalkundige verrijking
- Breitbarth, Anne, Melissa Farasyn, Anne-Sophie Ghyselen, Liliane Haegeman, and Jacques Van Keymeulen. 2021. ‘Ge Had Dien Een keer moeten eten En Zien! Neue Erkenntnisse Zum Gebrauch Der Partikel En Im Spoken Corpus of the (Southern) Dutch Dialects.’ In Syntax aus Saarbrücker Sicht 4: Beiträge der SaRDiS-Tagung zur Dialektsyntax, eds. Augustin Speyer and Julia Hertel, 67-83. Stuttgart: Franz Steiner Verlag. Zeitschrift Für Dialektologie Und Linguistik: Beihefte, 187.
- Breitbarth, Anne, Melissa Farasyn, Anne-Sophie Ghyselen & Jacques Van Keymeulen. 2020. ‘The Spoken Corpus of Southern Dutch Dialects’. Handelingen van de Koninklijke Zuid-Nederlandse Maatschappij voor Taal- en Letterkunde en Geschiedenis (KZM) LXXII: 23-38.
- Farasyn, M., Ghyselen, A.-S., Van Keymeulen J. & A. Breitbarth (2022). Challenges in tagging and parsing spoken dialects of Dutch. Journal of Historical Syntax [Special issue ‘Annotating Historical Corpora’].
- Ghyselen, Anne-Sophie, Van Keymeulen, Jacques, Farasyn, Melissa, Hellebaut, Lien, & Breitbarth, Anne. 2020. The transcription protocol of the Spoken Corpus of Dutch Dialects (GCND). Bulletin de la Commission Royale de Toponymie et Dialectologie [= Proceedings of the Royal Commission for Toponymy & Dialectology], 92, 83-115.
- Ghyselen, Anne-Sophie, Anne Breitbarth, Melissa Farasyn, Jacques Van Keymeulen & Arjan van Hessen. 2020. Clearing the Transcription Hurdle in Dialect Corpus Building: The Corpus of Southern Dutch Dialects as Case-Study. Frontiers in Artificial Intelligence 3:10. doi: 10.3389/frai.2020.00010.
- Van Keymeulen, Jacques, Veronique De Tier, Anne Breitbarth, Anne-Sophie Ghyselen & Melissa Farasyn. 2019. ‘The Dialectological Corpus ‘Voices From The Past’ of Ghent University.’ Folklore 120 (2): 193-204.


