Historisch Nederlands: tools en data

 

Tools

Meer weten

Data

Meer weten

 
 

 

Meer weten: tools

Het INT stelt diverse taalmaterialen ter beschikking. Hieronder een selectie van tools die relevant zijn voor het werken met historisch taalmateriaal.

  • Attestation tool
    Multifunctionele, downloadbare gebruikersinterface voor de productie van computationele lexica, inclusief gouden standaard voor named entity tagging
  • Autosearch
    Een tool om geannoteerde teksten te uploaden (voorzien van lemma's en woordsoortinformatie in TEI- of FoLiA-formaat), één of meerdere corpora te definiëren en deze te doorzoeken
  • CoBaLT
    Applicatie om een verzameling tekstbestanden in te laden en taalkundig te annoteren
  • INL Labs
    Webservice voor het taggen/lemmatiseren van (historische) teksten met o.a. een tagger voor eigennamen (named entities) en een tagger speciaal getraind voor historisch materiaal
  • MBMP-morphological-parse
    Een geheugengebaseerde morfologische parser voor de programmeertaal Python, trainbaar op historisch materiaal
  • Philosophical Integrator of Computational and Corpus Libraries (PICCL)
    PICCL is een webgebaseerde en commandline tool die een workflow aanbiedt voor het samenstellen van corpora door OCR, post-correctie, normalisatie en taalkundige verrijking

 

Meer weten: data

Het INT stelt diverse taalmaterialen ter beschikking. Hieronder een selectie van datasets van historisch taalmateriaal die downloadbaar zijn.

  • Benchmark set
    Set voor historische morfologie, van ongeveer 5000 morfologisch geanalyseerde woordvormen evenredig verspreid over de tijd
  • Brieven als buit – Gouden Standaard
    De circa 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het Brieven als Buit-programma, geleid door prof. dr. M.J. van der Wal
  • Corpus Gysseling
    Verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek, verrijkt met woordsoort en modern lemma; gouden standaard
  • Corpus Middelnederlands
    Een verzameling van ca. 350 Middelnederlandse literaire teksten uit de periode 1250-1500, in TEI gecodeerd (grotendeels oorspronkelijk gepubliceerd op de cd-rom Middelnederlands)
  • Eindhoven-corpus
    Een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976, verrijkt met woordsoort en modern lemma
  • INT Historische Woordenlijst
    Twee lijsten met elk ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970
  • INT IMPACT NE Lexicon
    Lexicon voor het Nederlands, met historische namen en varianten uit de periode 1750-1945

Handleidingen voor taalkundige verrijking (diachroon perspectief)

 

Op deze website maken wij gebruik van cookies.