In lijn met het Taalunie-speerpunt omtrent inclusie hebben we bij het Instituut voor de Nederlandse Taal (INT) ook aandacht voor laaggeletterdheid. Zo hebben we eerder al het Wablieft-corpus online gezet. Dat bevat enkele jaargangen van de Wablieft-krant (Wablieft is het centrum voor duidelijke taal): zo’n 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands.
Automatisch tekst vereenvoudigen
We willen graag uitzoeken wat de mogelijkheden zijn voor automatische tekstvereenvoudiging. Dat houdt in dat moeilijke woorden geïdentificeerd worden en vervangen door eenvoudigere of beter gekende synoniemen, en dat complexe zinsconstructies met bijvoorbeeld ingebedde bijzinnen omgevormd worden tot eenvoudigere zinsconstructies waarbij de bijzin uitgelicht wordt en als een aparte zin wordt geformuleerd.
Een dergelijk systeem kunnen we het beste trainen of testen als we beschikken over handmatig vereenvoudigde teksten. Het Wablieft-materiaal bestaat alleen niet uit vereenvoudigd materiaal, maar is onmiddellijk eenvoudig geschreven.
Nieuwsartikelen koppelen
In zijn Master of Artifical Intelligence-thesis aan de KU Leuven onderzocht Nick Vanackere daarom, onder begeleiding van het INT, of we de Wablieft-artikels automatisch konden koppelen aan artikels uit De Standaard die over dezelfde gebeurtenis gaan. Nick gebruikte hiervoor een voorgetraind taalmodel en berekende de afstand tussen een Wablieft-artikel en een kandidaatartikel uit De Standaard, dat geselecteerd werd op basis van een aantal eenvoudigere technieken. Evaluatie op een testset leidde tot een correctheid (F-score) van meer dan 92%, wat betekent dat we nu over een vergelijkend corpus beschikken van Wablieft en De Standaard. Een eerste stap in het automatisch vereenvoudigen van teksten.
Neem voor meer informatie contact op met vincent.vandeghinste@ivdnt.org.