IMPACT (IMProving ACcess to Text)

Historische teksten toegankelijk maken

Projectbeschrijving

IMPACT is een Europees project dat online historische teksten toegankelijker maakt. Daarvoor optimaliseren we de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten.

> Meer

Historische teksten: lees- en doorzoekbaar

Bibliotheken digitaliseren teksten op grote schaal. Voor historische teksten levert dat problemen op. De kwaliteit van de digitalisering door Optical Character Recogniton (OCR) is vaak zo slecht, dat de gedigitaliseerde tekst nog amper leesbaar of doorzoekbaar is. Dat heeft bijvoorbeeld te maken met de kwaliteit van het papier en de druk, het gebruik van onbekende lettertypes en het feit dat historische taal wat betreft spelling en woordenschat te veel afwijkt van het hedendaagse taalgebruik. Daarom werkt IMPACT aan de kwaliteit van de digitalisering. Zo verbeteren we de bestaande OCR-technologie en de doorzoekbaarheid door middel van taaltechnologie en computerlexica.

Massadigitalisering

IMPACT heeft ook een belangrijk strategisch doel: significante verbetering van het proces van massadigitalisering in Europa: hogere snelheid, volume en kwaliteit en lagere kosten. Dit bereiken we door de verspreiding van techniek, kennis en ervaring door heel Europa. Het Centre of Competence is de locatie waar de resultaten van IMPACT beschikbaar blijven en verder doorontwikkeld worden.

INL en IMPACT

Het INL is een van de zesentwintig partners van IMPACT. In dit samenwerkingsverband heeft het INL gewerkt aan tools (middelen) om computerlexica te bouwen. Ook hebben we lexica gebouwd voor het Nederlands en het Engels. Daarnaast is er onder onze leiding gewerkt aan het beschikbaar maken van alle tools en technologieën in het Duits, Frans, Spaans, Pools, Tsjechisch, Sloveens en Bulgaars. IMPACT heeft de technologie ontwikkeld om die lexica toe te passen. Tot slot heeft IMPACT de Named Entity Recogition in historische teksten verbeterd. Dit wil zeggen de mogelijkheid om personen, plaatsen en organisaties automatisch te herkennen in teksten.

Looptijd project: 2008 tot medio 2012.

De resultaten

De projectresultaten kunt u in verschillende vormen op de website bekijken van het IMPACT Centre of Competence. Hieronder vindt u een aantal interessante links naar o.a. de tools, lexica en de kennisbank. Deze zijn gericht op zowel projectleiders als wetenschappers.

> Meer

Tools

IMPACT biedt straks specifieke tools aan zoals: spellingvariatietool, tool voor paradigma-expansie en lemmatiseerder, tokenizer, CoBaLT (Corpus Based Lexion Tool), CitAttest (tool voor het detecteren van woordvormen in woordenboekcitaten), Dictionary Attestation Tool, NERT (tool voor Named Entity Recognition en Matching), Named Entity Attestation Tool.

De algemene informatie en de documentatie (details en handleidingen) over deze tools kunt u hier al vinden: tools algemeen. IMPACT zal de tools de komende maanden beschikbaar stellen onder de Apache Software License.

Een printvriendelijk pdf-overzicht van al deze tools vindt u hier: Lexicon Cookbook

Lexica

Documentatie over de lexica in negen verschillende talen vindt u vanaf nu hier. De Nederlandse lexica, ontwikkeld door het INL, zijn vanaf begin 2013 beschikbaar. Dus houd onze site in de gaten, of meld u aan voor onze nieuwsbrief of volg ons op Twitter.

De algemene informatie over lexica voor OCR en retrieval vindt u in de knowledge bank.

Heeft u vragen of wilt u meer informatie? Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.