Categorieën
Onderzoek & projecten

IMPACT

IMPACT (IMProving ACcess to Text) was een Europees project dat online historische teksten toegankelijker maakte. Daarvoor werden de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten geoptimaliseerd.

Projectbeschrijving

IMPACT staat voor IMProving ACcess to Text. Het was een Europees project dat online historische teksten toegankelijker maakte. Daarvoor werden de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten geoptimaliseerd.

Digitalisering van historische teksten

Bibliotheken digitaliseren teksten op grote schaal. Voor historische teksten levert dat problemen op. De kwaliteit van de digitalisering door Optical Character Recognition (OCR) is vaak zo slecht, dat de gedigitaliseerde tekst amper leesbaar of doorzoekbaar is. Dat heeft bijvoorbeeld te maken met de kwaliteit van het papier en de druk, het gebruik van onbekende lettertypes en het feit dat historische taal wat betreft spelling en woordenschat te veel afwijkt van het hedendaagse taalgebruik. Daarom werkte IMPACT aan de kwaliteit van de digitalisering. Zo hebben we de bestaande OCR-technologie en de doorzoekbaarheid door middel van taaltechnologie en computerlexica verbeterd.

Massadigitalisering

IMPACT had ook een belangrijk strategisch doel: significante verbetering van het proces van massadigitalisering in Europa: hogere snelheid, volume en kwaliteit en lagere kosten. Dit wilden we bereiken door techniek, kennis en ervaring door heel Europa te verspreiden. Het Centre of Competence is de locatie waar de resultaten van IMPACT beschikbaar blijven en verder doorontwikkeld worden.

Onze rol

Het Instituut voor Nederlandse Lexicologie (INL, de voorloper van het Instituut voor de Nederlandse Taal (INT)) was een van de zesentwintig partners van IMPACT. In dit samenwerkingsverband werkte het INL aan tools (middelen) om computerlexica te bouwen. Ook hebben we lexica gebouwd voor het Nederlands en het Engels. Daarnaast is er onder onze leiding gewerkt aan het beschikbaar maken van alle tools en technologieën in het Duits, Frans, Spaans, Pools, Tsjechisch, Sloveens en Bulgaars. IMPACT heeft de technologie ontwikkeld om die lexica toe te passen. Tot slot heeft IMPACT de Named Entity Recognition in historische teksten verbeterd. Dit wil zeggen de mogelijkheid om personen, plaatsen en organisaties automatisch te herkennen in teksten.

Looptijd project

2008 tot medio 2012.

De resultaten

De projectresultaten kunnen in verschillende vormen bekeken worden op de website van het IMPACT Centre of Competence. IMPACT biedt specifieke tools aan zoals: spellingvariatietool, tool voor paradigma-expansie en lemmatiseerder, tokenizer, CoBaLT (Corpus Based Lexicon Tool), CitAttest (tool voor het detecteren van woordvormen in woordenboekcitaten), Dictionary Attestation Tool, NERT (Named Entities Recognition Tool), Named Entity Attestation Tool.

Heeft u vragen of wilt u meer informatie? Neem contact op met katrien.depuydt@ivdnt.org.

Ga naar de inhoud