Het Instituut voor de Nederlandse Taal (INT) is druk bezig om alle historische corpora in een nieuw jasje te steken. De eerste resultaten daarvan zijn inmiddels te zien. Vanaf 1 september 2020 zijn zowel het Corpus Gysseling als het Corpus Middelnederlands, twee belangrijke corpora voor onderzoekers van en geïnteresseerden in de Middelnederlandse taal en literatuur, online beschikbaar.
Historische corpora
Voor taalkundig (en letterkundig) onderzoek zijn historische corpora van hoge kwaliteit van groot belang. Het INT heeft tot nu toe drie van zulke corpora gemaakt: het Corpus Oudnederlands (bron van het Oudnederlands Woordenboek), het Corpus Gysseling (bron van het Vroegmiddelnederlands Woordenboek) en het Corpus Middelnederlands (verzameling rijm- en prozateksten uit de periode 1300-1550). Daarnaast heeft het INT meegewerkt aan het corpus Brieven als Buit (Nederlandse brieven uit de 17e en 18e eeuw, een selectie uit de ruim 38.000 zogeheten Sailing Letters uit de Britse archieven) en aan een nieuwe versie van het Eindhoven-corpus (eerste verzameling Nederlandstalige geschreven en (getranscribeerde) gesproken teksten, uit de periode 1960-1973).
Digitale beschikbaarheid
Sommige van deze corpora waren al langer via een webapplicatie beschikbaar: het Corpus Oudnederlands werd op 29 februari 2012 voor het eerst online gezet, het Corpus Gysseling volgde op 25 april 2012 en het corpus Brieven als Buit werd op 5 september 2013 ontsloten. Eerder al was op de cd-rom Middelnederlands (1998) het Corpus Middelnederlands – samen met het Corpus Gysseling – digitaal toegankelijk gemaakt. Overigens zijn het Corpus Middelnederlands en het Corpus Oudnederlands, dat wil zeggen de Oudnederlandse teksten uit het Corpus Gysseling, ook geintegreerd binnen het onderzoeksportaal Nederlab.
Nieuw uiterlijk
In de nieuw gelanceerde corpusapplicatie zijn alle historische corpora op identieke wijze vorm gegeven. Een gebruiker die bekend is met de zoekfuncties en zoekmogelijkheden van het ene corpus kan dan ook snel de weg vinden in de andere corpora. Het is mogelijk op vier verschillende manieren te zoeken: Simple, Extended, Advanced en Expert. Er kan, afhankelijk van het corpus, zowel gezocht worden op tekst en daaraan gerelateerde kenmerken (zoals woord, lemma, woordsoort, cliticiteit) als op metadata (denk aan datum, locatie, auteur, titel).
Corpus Gysseling
Het Corpus Gysseling is de verzameling van alle in het Middelnederlands geschreven teksten uit de dertiende eeuw, overgeleverd in origineel of in een 13e-eeuws afschrift. De teksten zijn destijds alle gebruikt als bronnenmateriaal voor het Vroegmiddelnederlands Woordenboek (VMNW). Het corpus bestaat uit 2000 ambtelijke en 45 literaire teksten, in de periode 1977-1988 diplomatisch uitgegeven door de Gentse taalkundige dr. Maurits Gysseling (1919-1997). De Oudnederlandse teksten die Gysseling voor de papieren versie van zijn corpus had verzameld, komen binnen afzienbare tijd als afzonderlijk Corpus Oudnederlands ook beschikbaar in de nieuwe corpusapplicatie.
In deze nieuwe versie van het corpus Gysseling zijn niet alleen correcties aangebracht aan de taalkundige verrijking, er is een mapping uitgevoerd naar een eerste versie van de in de context van CLARIAH+ ontwikkelde tagset voor de verrijking van diachroon corpusmateriaal. De cijfercodering waarmee het oorspronkelijke corpus taalkundig verrijkt was, is ook behouden.
Corpus Middelnederlands
Het Corpus Middelnederlands is een collectie van een 400, meestal kritisch uitgegeven Middelnederlandse rijm- en prozateksten, alle daterend uit de 14e, 15e of 16e eeuw. De verzameling bevat alle klassiekers zoals de Beatrijs, de Reynaert, de Abele Spelen en de verhalen rond koning Arthur en rond Karel de Grote. Maar ook minder bekende of bestudeerde teksten zijn erin opgenomen, zoals prozaversies van de ridderverhalen-op-rijm (de zogenoemde ‘volksboeken’), liedverzamelingen, bijbelvertalingen, heiligenlevens, gebedenboeken, kronieken, verschillende religieuze, didactische en wetenschappelijke traktaten en diverse geneeskundige handleidingen en recepten.
De hoofdbron voor dit Corpus Middelnederlands is de collectie rijm- en prozateksten van de cd-rom Middelnederlands, eind 1998 door het INT (toen nog INL) uitgebracht. Aan deze basisverzameling werden voor deze onlinerelease nog een 25-tal korte en lange teksten toegevoegd; het zijn alle zogenoemde artesteksten (non-fictionele teksten met een utilitair of instructief doel), zoals de medische handboeken Circa instans en Trotula, de teksten uit het Hattemse arteshandschrift C5 en het encyclopedische werk Van der proprieteyten der dinghen van Bartholomeus Anglicus. De bestanden met de diplomatische edities van het Hattemse handschrift en van Van der proprieteyten werden ons ruimhartig ter beschikking gesteld door de Utrechtse Werkgroep Middelnederlandse Artesliteratuur (WEMAL).
Aan het Corpus Middelnederlands zal deze extra taalkundige informatie op termijn toegevoegd worden. Tot die tijd zou je daarom in principe alleen kunnen zoeken op de woordvormen die in de tekst voorkomen. Met de talloze spellingvarianten in het Middelnederlands is dat echter een ondoenlijke opgave. Om dit probleem de baas te zijn is de eerste online release van het Corpus Middelnederlands daarom gekoppeld aan de Lexicon Service van het INT. Deze lexiconservice bestaat uit een grote database met Nederlandse woorden, hun historische spellingvarianten, verbuigingen, vervoegingen en woordsoort(en). Hierdoor wordt het toch mogelijk met een modern Nederlands trefwoord te zoeken in het Corpus Middelnederlands. Zo verschijnen na het intypen van de zoekterm hond de volgende varianten uit de gemelde database in beeld: hond, hondt, hont, hunt, honde, honden, honds en honts. Desgewenst kunnen deze vormen geselecteerd worden bij het zoeken.