Categorieën
Corpora & lexica

IMPACT-lexica

IMPACT was een Europees project dat was opgezet om historische teksten online toegankelijker te maken. Er zijn daarbij diverse lexica tot stand gekomen, bedoeld om in te kunnen zetten voor OCR, OCR-postcorrectie en betere zoekmogelijkheden in teksten.

English version

IMPACT lexicons

During the IMPACT project, which ran from 2008-2012, various lexicons were compiled. These lexicons were intended for OCR, OCR post-correction and better search facilities in texts. The computational lexicon of common nouns, compiled to make searching easier, has been included in GiGaNT (a computational lexicon in the making, covering the Dutch language from the 6th century until now).

INT Historical Word List

The INT Historical Word List consists of two lists, each containing around 500,000 historical word forms, to be used for OCR and OCR post-correction, roughly for the period 1550-1970. One list contains regular words, the other contains names.

For a demonstration of the use of the lexicon in OCR, see this paper.

INT IMPACT NE Lexicon

The INT IMPACT NE Lexicon is a computational lexicon of proper nouns based on sources from the period 1750-1945.

The lexicon contains names of persons, places and organisations. Place names and organisations are linked to a contemporary Dutch lemma and, if relevant, to an alternative name.

Personal names are equivalent in order to group variants. Personal names have been given a lemma form equal to their form in the original material. Variants of the same personal name are linked automatically.


Applications/products

Further reading

Tijdens het IMPACT-project, dat liep van 2008-2012, zijn diverse lexica tot stand gekomen. Het doel was om de lexica in te kunnen zetten voor OCR, OCR-postcorrectie en om beter in teksten te kunnen zoeken. Het computationeel lexicon van soortnamen, dat het zoeken moet vergemakkelijken, is opgenomen in GiGaNT (een computationeel lexicon in ontwikkeling van de Nederlandse taal vanaf de zesde eeuw tot en met het heden).

INT Historische Woordenlijst

De INT Historische Woordenlijst bestaat uit twee lijsten met elk ongeveer 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 – ca. 1970. De ene lijst bevat gewone woorden, de andere namen.

Hoe je dit lexicon voor OCR kunt gebruiken, wordt geïllustreerd en geëvalueerd in dit paper (2013).

INT IMPACT NE Lexicon

Het INT IMPACT NE Lexicon is een computationeel lexicon van eigennamen gebaseerd op bronnen uit de periode 1750-1945.

Het lexicon bevat persoonsnamen, plaatsnamen en organisaties. Plaatsnamen en organisaties zijn gelinkt aan een hedendaags Nederlands lemma en waar relevant aan een alternatieve naam.

Persoonsnamen zijn equivalent om zo varianten te groeperen. Persoonsnamen uit het materiaal zijn in de aangetroffen vorm als lemma opgenomen. Varianten van dezelfde persoonsnaam zijn automatisch gelinkt.


Applicaties/producten

Meer lezen

Ga naar de inhoud