Tijdens het IMPACT-project, dat liep van 2008-2012, zijn diverse lexica tot stand gekomen. Het doel was om de lexica in te kunnen zetten voor OCR, OCR-postcorrectie en om beter in teksten te kunnen zoeken. Het computationeel lexicon van soortnamen, dat het zoeken moet vergemakkelijken, is opgenomen in GiGaNT (een computationeel lexicon in ontwikkeling van de Nederlandse taal vanaf de zesde eeuw tot en met het heden).
INT Historische Woordenlijst
De INT Historische Woordenlijst bestaat uit twee lijsten met elk ongeveer 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 – ca. 1970. De ene lijst bevat gewone woorden, de andere namen.
Hoe je dit lexicon voor OCR kunt gebruiken, wordt geïllustreerd en geëvalueerd in dit paper (2013).
INT IMPACT NE Lexicon
Het INT IMPACT NE Lexicon is een computationeel lexicon van eigennamen gebaseerd op bronnen uit de periode 1750-1945.
Het lexicon bevat persoonsnamen, plaatsnamen en organisaties. Plaatsnamen en organisaties zijn gelinkt aan een hedendaags Nederlands lemma en waar relevant aan een alternatieve naam.
Persoonsnamen zijn equivalent om zo varianten te groeperen. Persoonsnamen uit het materiaal zijn in de aangetroffen vorm als lemma opgenomen. Varianten van dezelfde persoonsnaam zijn automatisch gelinkt.