Categorieën
WoordHoek

Couranten Corpus is een goudmijn

Goed nieuws voor mensen die, zoals Ewoud Sanders, een zwak hebben voor oud nieuws: de grootste verzameling 17e-eeuwse Nederlandse kranten is sinds kort geavanceerd te doorzoeken.

Het Couranten Corpus, dat is ondergebracht bij het Instituut voor de Nederlandse Taal (INT), is een project van Nicoline van der Sijs. De afgelopen jaren hebben driehonderd vrijwilligers alle teksten uit dertien 17e-eeuwse kranten getranscribeerd. Het gaat om titels als de Amsterdamse courant, de Haegse post-tydinge, de Oprechte Haerlemsche courant, de Opregte Leydse courant en de Utrechtse courant.

De Oprechte Haerlemsche courant van 31 mei 1672 (Delpher)

De kranten zijn afkomstig uit Delpher, de bekende databank van onder meer de Koninklijke Bibliotheek. Daar kun je wel door die kranten heen bladeren, maar op woordniveau zijn ze gebrekkig te doorzoeken. Dat komt doordat Delpher vooralsnog grotendeels gebruikmaakt van een tekstlaag die is gefabriceerd door de computer. Dit gebeurt met behulp van OCR, optische tekenherkenning. Bij oude teksten gaat dat vaak mis, vandaar ook dit project van Nicoline van der Sijs.

Eén voorbeeld kan volstaan. In Delpher luidt de tekst van een bericht uit de Oprechte Haerlemsche courant van 31 mei 1672, vandaag dus precies 350 jaar geleden: “Uyt de Ukranie zijn oock goeds Tydingen ingekomen, ramenrlijck, datHumanen andere Plaetfen haer onder hm Mdjefleytsbefchertninge hebben begeren, en alle de Coiacker. den Haneoko zi.ti toegevallen.”

Het Couranten Corpus bevat de correcte tekst, niet alleen uitgetikt maar ook gecontroleerd door vrijwilligers:

Uyt de Ukranie zijn oock goede Tydingen ingekomen, namentlijck, dat Human en andere Plaetsen haer onder sijn Majesteyts bescherminge hebben begeven, en alle de Cosacken den Hanenko zijn toegevallen.

In totaal transcribeerden de vrijwilligers maar liefst 109.532 artikelen, samen goed voor bijna negentien miljoen woorden. Ik vind dat echt heldenwerk, waarvoor zij alle lof verdienen. Het zinnetje dat ik uit Delpher citeerde is overigens een relatief goed voorbeeld. Een paar regels verder luidt de OCR-tekst: “Sen fos iniomm’ iw o? bt sitt n ffe / bat fnt gssoejlj y/ oni «fU föffin/ sta’r mare ban bast fiamf.”

Geavanceerde zoekmogelijkheden

Het Couranten Corpus heeft geavanceerde zoekmogelijkheden. Daar moet je je in verdiepen om er optimaal gebruik van te kunnen maken. Eerder gaf Roland de Bonth, verbonden aan het INT, een workshop over het gebruik van de online historische woordenboeken. Ik hoop dat hij dat ook gaat doen voor het Couranten Corpus, want je ziet makkelijk slimme zoekmogelijkheden over het hoofd.

Heel fijn is in ieder geval dat je automatisch spellingvarianten van je zoekterm krijgt aangeboden. Heel lang lag de spelling van het Nederlands niet vast. Dat betekent dat je woorden vaak in allerlei vormen tegenkomt. Maar wie nu zoekt op bijvoorbeeld bibliotheek, krijgt meteen te zien dat dit in de 17e-eeuwse kranten ook voorkomt in de vormen bibliotheec, bibliotheeck, bibliotheecq en bibliotheque.

         Ook fijn is dat je de zoekresultaten op verschillende manieren kunt sorteren en dat je kunt filteren op onder meer advertenties, op binnenlands en op buitenlands nieuws.

Smullen

17e-eeuws Nederlands is niet makkelijk – ik heb er zelf ook moeite mee. Gelukkig kun je betekenissen van woorden die je niet kent, opzoeken in de online versie van het Woordenboek der Nederlandsche Taal. Bovendien blijkt de betekenis vaak uit de context.

Zelf vind ik dergelijke oude kranten smullen omdat ze met korte teksten een grotendeels onbekende wereld tevoorschijn toveren. Dat zit soms in hele kleine dingen. Bij het bericht over de oorlog in de Oekraïne waaruit ik hierboven citeerde, staat bijvoorbeeld als datum: Warschau, 14 mei. Het werd in Nederland gepubliceerd op 31 mei 1672, dus ruim twee weken later. Het is natuurlijk geen verrassing dat buitenlands nieuws zich indertijd langzamer verspreidde dan nu, maar hiermee heb je een aanwijzing hoe lang het kon duren. Een en ander lijkt me trouwens een onderzoekje waard. Werd de snelheid waarmee buitenlands nieuws Nederland bereikte voornamelijk bepaald door de afstand (Parijs eerder dan Warschau), of speelden andere factoren een rol, zoals oorlogen, internationale handelsbetrekkingen of diplomatieke banden?

Moedernaakte dode man

Nog een bericht, andermaal uit die Haarlemse krant van 31 mei 1672: “Op Eergisteren is aen de Vennip een doodt Mans persoon gevonden, out omtrent 20 Iaren, met bruyn langh Hair, wesende Moedernaeckt, en ten deele vergaen, die deselve mist, kan zigh daer addresseeren.”

De Vennip is een voormalige plattelandsgemeente in Zuid-Holland, op het grondgebied van de huidige gemeenten Hillegom en Haarlemmermeer. Dit nieuws is veel verser, slechts twee dagen oud. Het leert me dat sommige mannen – misschien wel de meeste – indertijd lang haar hadden. En dat men het ook indertijd belangrijk vond om iemands dode lichaam terug te bezorgen bij diens nabestaanden.

Natuurlijk roept dit bericht ook vragen op. Onbeantwoordbaar zijn: waarom was deze man naakt en wat is hem overkomen? Wel te beantwoorden: hoe vaak komt het woord moedernaakt voor in die dertien 17e-eeuwse kranten? Het antwoord luidt: vier keer tussen 1667 en 1691, telkens in de Oprechte Haerlemsche courant. Klik bij de resultaten op die krantentitel en je krijgt het hele artikel te zien, onder meer over een Nederlandse soldaat die in vrouwenkleren deserteert maar wordt gepakt en opgehangen. En klik op “View page in Delpher” en je krijgt een scan van de originele krantenpagina te zien.

Mede dankzij die driehonderd vrijwilligers gaat er een wereld voor je open.

Dit is de laatste WoordHoek voor de zomer. De rubriek wordt hervat op 6 september.


Wilt u automatisch op de hoogte worden gehouden van nieuwe afleveringen van WoordHoek? Schrijf u dan in voor Taalpost, de gratis e-mailnieuwsbrief van het Genootschap Onze Taal.

Ewoud Sanders is journalist en taalhistoricus. Hij schrijft elke week voor het Instituut voor de Nederlandse Taal.

Twitter: @ewoudsanders