IMPACT-lexica

English

Tijdens het IMPACT-project zijn diverse lexica tot stand gekomen. De bedoeling was om de lexica in te kunnen zetten voor OCR, OCR postcorrectie en om beter in teksten te kunnen zoeken. Het computationeel lexicon van soortnamen, dat het zoeken moet vergemakkelijken, is opgenomen in GiGaNT.

INT Historische Woordenlijst

De INT Historische Woordenlijst bestaat uit 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970. De ene lijst bevat gewone woorden, de andere namen.

Zie voor een evaluatie van het gebruik van het lexicon in OCR deze video en dit paper.

INT IMPACT NE Lexicon

Het INT IMPACT NE Lexicon is een computationeel lexicon van eigennamen gebaseerd op bronnen uit de periode 1750-1945.

Het lexicon bevat persoonsnamen, plaatsnamen en organisaties. Plaatsnamen en organisaties zijn gelinkt aan een hedendaags Nederlands lemma en waar relevant aan een alternatieve naam.

Persoonsnamen zijn equivalent om zo varianten te groeperen. Persoonsnamen hebben hetzelfde lemma als hoe ze voorkwamen in het materiaal. Varianten van dezelfde persoonsnaam zijn automatisch gelinkt.

IMPACT lexicons

During the IMPACT project several lexicons were compiled. These lexicons were intended for OCR, OCR post-correction, and better search facilities in texts. The computational lexicon of common nouns, which should make searching easier, has been included in GiGaNT.

INT Historical Word List

The INT Historical Word List consists of two lists, each of ca 500,000 historical word forms, to be used for OCR and OCR post-correction, for the period of 1550-1970, approximately. One list contains regular words, the other contains names.

For an evaluation of the use of the lexicon in OCR, see this video and this paper.

INT IMPACT NE Lexicon

The INT IMPACT NE Lexicon is a computational lexicon of proper nouns based on sources from the period of 1750-1945.

The lexicon contains names of persons, places and organisations. Place names and organisations are linked to a contemporary Dutch lemma and, if relevant, to an alternative name.

Names of persons are equivalent in order to group variants. Names of persons have the same lemma as they had in the material they occurred in. Variants of the same name of a person are linked automatically.

Op deze website maken wij gebruik van cookies.