Categorieën
Corpora & lexica

SABeD

Het SABeD Corpus bestaat uit transcripties van 200 colleges die zijn gegeven aan instellingen voor hoger onderwijs in Vlaanderen.

Het Spoken Academic Belgian Dutch Corpus (SABeD) bestaat uit 200 colleges die zijn gegeven aan instellingen voor hoger onderwijs in Vlaanderen. Het gaat daarbij om colleges uit de sociale wetenschappen, de humaniora, de exacte wetenschappen en de biologie. Het corpus bevat iets minder dan één miljoen woorden.

De eerste 25 en de laatste 5 minuten van elk college zijn getranscribeerd met behulp van een Automatic Speech Recognition-systeem dat is afgestemd op Belgisch Nederlands. Vervolgens is handmatige uitspraaksegmentatie toegepast, gevolgd door handmatige correctie van de automatische transcriptie.

Tags: corpus
Laatst gewijzigd: 19/11/2025
Contactpersoon: