Categorieën
Nieuws

Historical Corpus of Dutch staat online

Afgelopen week is het Historical Corpus of Dutch (HCD) online gekomen. Het wil een belangrijke leemte opvullen in de onderzoeksinfrastructuur voor historisch Nederlands, dat lange tijd geen evenwichtig corpus heeft gehad met gegevens uit alle eeuwen en uit verschillende regio’s en genres.

Het HCD is gebouwd door onderzoekers van de Vrije Universiteit Brussel en de Universiteit Leiden en wordt beschikbaar gesteld door het Instituut voor de Nederlandse Taal (INT). Het HCD is een diachroon, regionaal gebalanceerd, multigenre corpus van geschreven Nederlands. Het is opgebouwd langs drie variationele dimensies: tijd, regio en genre.

Tijd

Het HCD beslaat de zestiende tot en met de negentiende eeuw. Tekstmateriaal werd gekozen rond het midden van elke eeuw: 1550, 1650, 1750 en 1850. Voor elk van deze data werd een marge van 20 jaar voor en 20 jaar na de datum ingebouwd om voldoende bronnen te vinden, wat resulteerde in vier tijdsperioden: 1530-1570, 1630-1670, 1730-1770 en 1830-1870.

Regio

Het HCD omvat tekstmateriaal uit vier regio’s in de noordelijke en zuidelijke Nederlanden: Holland en Zeeland in het noorden (in het huidige Nederland), en Brabant en Vlaanderen in het zuiden (in het huidige België). Holland en Brabant kunnen worden beschouwd als centrale regio’s, terwijl Zeeland en Vlaanderen een meer perifere positie innemen, zodat het corpus ook kan worden gebruikt om de dynamiek tussen centrum en periferie te onderzoeken. Teksten zijn afkomstig uit grotere steden zoals Amsterdam, Antwerpen, Middelburg en Gent, maar ook uit kleinere steden en dorpen (bijv. Arnemuiden, Strijpen).

Genre

Het HCD bestaat uit administratieve teksten, egodocumenten en pamfletten. De administratieve teksten zijn handgeschreven, formele teksten, zoals verslagen van gemeenteraadsvergaderingen en resoluties. De auteurs van deze teksten waren over het algemeen gewend om te schrijven vanwege hun beroep. De bronnen voor dit genre hadden enerzijds te maken met gilden of industrie en anderzijds met het algemeen bestuur. Egodocumenten zijn minder formele, handgeschreven teksten zoals reisverslagen, dagboeken en kronieken van lokale gebeurtenissen of familiegeschiedenis. De pamfletten zijn gepubliceerde teksten, meestal commentaren of polemieken over actuele zaken, politiek of religieuze onderwerpen, maar ook openbare verordeningen en voorschriften. Door de verscheidenheid aan documenten kunnen gedrukte pamfletten variëren op het continuüm tussen meer en minder formeel.

Procedure

Alle tekstuele materialen werden handmatig getranscribeerd van foto’s van de originele documenten en meerdere keren gecontroleerd. Wanneer we bestaande transcripties gebruikten, zoals in het geval van sommige administratieve teksten, werden deze gecontroleerd aan de hand van het originele archiefmateriaal. Verwijzingen naar publicaties, bibliotheken en archieven zijn te vinden in Van de Voorde (2022).

Omvang

Het HCD bestaat uit 209 teksten, samen goed voor 463.248 woorden. Het bestaat uit 58 administratieve teksten, 60 egodocumenten en 91 pamfletten. We streefden naar 10.000 woorden per regio en per periode voor elk genre. Omwille van de representativiteit werden deze 10.000 woorden bij voorkeur verspreid over meerdere documenten. In de meeste gevallen gaat het dus om fragmenten en niet om volledige teksten. Onderstaande figuur, overgenomen uit Van de Voorde et al. (2023), toont het aantal woorden per genre, periode en regio. De meeste afwijkingen van de beoogde 10.000 woorden zijn te vinden in de zestiende eeuw. Een kleinere lacune kan worden opgemerkt voor de negentiende-eeuwse egodocumenten uit Brabant.

De waarde van dit nieuwe corpus wordt geïllustreerd aan de hand van enkele kleine casestudies in Van de Voorde, Rutten, Vosters, Van der Wal & Vandenbussche 2023.

Literatuur


Laatste nieuwsberichten:

Of bekijk alle nieuwsberichten.