Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW). Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd.
Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Meer gedetailleerde informatie over hoe het corpus is samengesteld, is hier te vinden.
Het corpus is taalkundig verrijkt met woordsoort en lemma. De annotatie is handmatig nagekeken voor het hele corpus.
Wat is Oudnederlands?
Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die – net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits – rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied.
De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen, zoals het gedicht de Heliand, omdat die tekst Oudsaksisch is.
Versiegeschiedenis
Een eerste online toegankelijke versie van het Corpus Oudnederlands werd gelanceerd op 29 februari 2012, in de vorm van een citatendatabank. Het was niet mogelijk hierin te zoeken op opeenvolgende woorden, omdat elk woord in een citaat een eigen rij (record) in die databank had, met taalkundige informatie (woordsoort en lemma), het volledige citaat en de metagegevens van het citaat. Deze versie is niet langer beschikbaar.
In 2018 zijn voor het Nederlab-project de gegevens uit die databank omgezet naar een woord voor woord taalkundig verrijkte tekst, waarbij correcties zijn uitgevoerd en tekstmetadata zijn toegevoegd.
In deze nieuwe versie zijn correcties aangebracht in de toegevoegde metadata in het corpus en is de taalkundige verrijking in overeenstemming gebracht met de Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN).