Het Spoken Academic Belgian Dutch Corpus (SABeD) bestaat uit 200 colleges die zijn gegeven aan instellingen voor hoger onderwijs in Vlaanderen. Het gaat daarbij om colleges uit de sociale wetenschappen, de humaniora, de exacte wetenschappen en de biologie. Het corpus bevat iets minder dan één miljoen woorden.
De eerste 25 en de laatste 5 minuten van elk college zijn getranscribeerd met behulp van een Automatic Speech Recognition-systeem dat is afgestemd op Belgisch Nederlands. Vervolgens is handmatige uitspraaksegmentatie toegepast, gevolgd door handmatige correctie van de automatische transcriptie.


