Corpora & lexica

/ Corpora & lexica /

Corpora

Een corpus is een grote verzameling geschreven of gesproken teksten, gemaakt om een taal te kunnen bestuderen en beschrijven. Corpora worden als basis gebruikt voor het maken van woordenboeken, computationele lexica en grammatica’s en voor allerlei wetenschappelijk onderzoek.

Brieven als Buit (origineel + aanvulling)

Het corpus Brieven als Buit bevat 1.000 Sailing Letters: Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw van en aan het thuisfront, die zijn buitgemaakt door kapers en in Britse archieven zijn bewaard. De teksten in het corpus zijn aangevuld met taalkundige informatie. Brieven als Buit-2 is een aanvulling op het originele corpus en bevat ruim 1.300 Sailing Letters. Deze teksten zijn niet taalkundig verrijkt maar wel voorzien van metadata.

Corpus Gysseling

Het Corpus Gysseling is een verzameling 13e-eeuwse teksten. Het bestaat uit voornamelijk ambtelijke en literaire teksten die gebruikt zijn als bronnenmateriaal voor het Vroegmiddelnederlands Woordenboek (VMNW). De teksten in het corpus zijn taalkundig verrijkt (aangevuld met taalkundige informatie).

Corpus Hedendaags Nederlands

Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 2.500.000 teksten uit kranten, tijdschriften, blogs, websites, journaaluitzendingen en romans. Het corpus is automatisch aangevuld met taalkundige informatie zoals woordsoort en lemma.

Woordpeiler

Hoe verandert het gebruik van woorden door de tijd heen? En welke woorden zijn kenmerkend voor een bepaalde periode? De website Woordpeiler brengt dat in beeld. De gegevens in Woordpeiler komen uit het krantenmateriaal van het Corpus Hedendaags Nederlands (CHN).

Corpus Juridisch Nederlands

Het Corpus Juridisch Nederlands omvat een verzameling van 5.856 wetsteksten uit de periode 1814 tot 1989, die per jaar zijn samengevoegd. Aanvankelijk maakte dit corpus deel uit van het 38 miljoenwoordencorpus en later van het Corpus Hedendaags Nederlands. Sinds 2021 is het beschikbaar gemaakt in een zelfstandige corpusapplicatie. Het corpus is automatisch taalkundig verrijkt met woordsoort en lemma.

Corpus Middelnederlands

Het Corpus Middelnederlands is een verzameling van ruim 350 Middelnederlandse rijm- en prozateksten uit de periode 1300-1550. Het corpus bevat veel literair materiaal, waaronder de Beatrijs en de Reynaert. Het corpus is in 2021 online gekomen en wordt op termijn aangevuld met woordsoort en trefwoord om het beter doorzoekbaar te maken.

Corpus Oudfries

Het Corpus Oudfries bevat een grote steekproef van de Oudfriese taal van ca. 1200-1550. Op dit moment bevat het corpus Oudfries 235.462 tokens, 177 tekstgetuigenissen uit 11 handschriften (114 verschillende teksten). Het corpus is gelemmatiseerd, van PoS-markeringen voorzien en ook verrijkt met metadata (zoals dialect, regio, datum), die toegankelijk zijn via filter- en groeperingsopties.

Corpus Oudnederlands

Het Corpus Oudnederlands is een verzameling van al het bekende Nederlandse woordmateriaal uit de periode 475-1200. Het bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en een aantal kleinere teksten, fragmenten, losse woorden en plaatsnamen. Het corpus is taalkundig verrijkt met woordsoort en lemma, en is gebruikt als bronnenmateriaal voor het Oudnederlands Woordenboek (ONW).

Couranten Corpus

Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn. De oudst overgeleverde kranten zijn gepubliceerd in 1618. Dit corpus bevat momenteel de inhoud van 13 kranten, 109.532 artikelen en 18.926.425 woorden. De informatie in deze kranten is van belang voor onderzoekers van verschillende disciplines, variërend van historici tot historische taalkundigen, literatuurwetenschappers en kunsthistorici.

Eindhoven-corpus

Het Eindhoven-corpus is een verzameling Nederlandstalige geschreven en (uitgeschreven) gesproken teksten uit de periode van 1960 tot 1976. Het bevat materiaal uit kranten en tijdschriften en correspondentie tussen de regering en de Staten-Generaal, en diverse gesproken bronnen. Het is in diverse fases verbeterd. Versie 2.5 is door het Instituut voor de Nederlandse Taal bruikbaar gemaakt in een hedendaagse corpusapplicatie.

Gekaapte brieven

Het corpus Gekaapte brieven is een verzameling van circa 6000 brieven en andere documenten zoals rekeningen die in de zeventiende en achttiende eeuw als scheepspost aan Nederlandse schepen zijn meegegeven. Tijdens een van de vier oorlogen tussen de Republiek en Groot-Brittannië zijn ze door de Engelsen gekaapt, met name in de periodes 1664-1672 en 1773-1790.

Gesproken Corpus van de zuidelijk-Nederlandse Dialecten (GCND)

Het Gesproken Corpus van de zuidelijk-Nederlandse Dialecten (GCND) is een taalkundig geannoteerd corpus, gebaseerd op een unieke collectie van dialectopnames (Stemmen uit het Verleden) uit 768 verschillende plaatsen in België, het noorden van Frankrijk en het zuiden van Nederland bij in het algemeen weinig mobiele en laagopgeleide sprekers geboren rond 1900.

Historical Corpus of Dutch

Het Historical Corpus of Dutch (HCD) wil een belangrijke leemte opvullen in de onderzoeksinfrastructuur voor historisch Nederlands, dat lange tijd geen evenwichtig corpus heeft gehad met gegevens uit alle eeuwen en uit verschillende regio’s en genres. Het HCD beslaat de zestiende tot en met de negentiende eeuw. Tekstmateriaal werd gekozen rond het midden van elke eeuw: 1550, 1650, 1750 en 1850.

Nederlab

Nederlab is een webinterface die onderzoekers in staat stelt verspreide digitale historische corpora als eenheid te doorzoeken en te analyseren; dit geldt zowel voor tekstniveau als voor metadataniveau.

SABeD

Het Spoken Academic Belgian Dutch Corpus (SABeD) bestaat uit 200 colleges die zijn gegeven aan instellingen voor hoger onderwijs in Vlaanderen. Het gaat daarbij om colleges uit de sociale wetenschappen, de humaniora, de exacte wetenschappen en de biologie. Het corpus bevat bijna één miljoen woorden.

Computationele lexica

Computationele lexica zijn gestructureerde datasets met woorden en taalkundige informatie over die woorden (woordsoort, uitspraak, betekenis, etc.), bedoeld om door een computerprogramma gebruikt te worden. Bronnen van lexica zijn corpora, andere lexica, of woordenboeken met citaten.

DiaMaNT

DiaMaNT staat voor Diachroon seMantisch lexicon van de Nederlandse Taal. Het is een computationeel semantisch lexicon in ontwikkeling, dat betekenisinformatie over woorden door de tijd heen moet bieden. DiaMaNT legt verbanden tussen woordvormen en betekeniseenheden (concepten), en plaatst ze in de tijd.

GiGaNT

GiGaNT staat voor Groot Geïntegreerd Lexicon van de Nederlandse Taal. Het is een computationeel lexicon in ontwikkeling van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon vormt straks een verzameling van woorden en woordgroepen in alle mogelijke spelling- en vormvarianten. Het biedt bij elk woord veel extra taalkundige informatie.

IMPACT-lexica

IMPACT was een Europees project dat was opgezet om historische teksten online toegankelijker te maken. Er zijn daarbij diverse lexica tot stand gekomen, bedoeld om in te kunnen zetten voor OCR, OCR-postcorrectie en betere zoekmogelijkheden in teksten

PAROLE-lexicon

Het PAROLE-lexicon is een computationeel lexicon met modern Nederlands taalmateriaal van ongeveer 1970-1998. Het bevat ruim 20.000 entry’s, die voorzien zijn van woordsoort, getal, naamval en gebruik in de zin. Het lexicon is gebouwd in de periode 1996-1998 en is onderdeel van een project voor basiscorpora en -lexica voor alle Europese talen.

INT-nieuwsbrief

Terminologienieuwsbrief