Eenvoudig Nederlands en taal voor kinderen

Door Vincent Vanghinste

Samen met Elke Peters van de KU Leuven werken we aan een grote verzameling Belgisch-Nederlandse teksten gericht op kinderen. Het gaat om acht jaargangen ondertitels van het VRT-jeugdjournaal Karrewiet, die automatisch aangevuld worden met taalkundige informatie zoals woordsoorten en lemma’s.

Het Instituut voor de Nederlandse Taal (INT) houdt zich bezig met het verzamelen en bestuderen van het Nederlands. Dit gaat zowel over het historisch Nederlands, als over het hedendaags Nederlands. Ook binnen het hedendaags Nederlands zijn er verschillende soorten Nederlands, afhankelijk van bijvoorbeeld wie deze taal produceert, of tot wie deze taal gericht is. Het INT wil graag zoveel mogelijk soorten Nederlands ter beschikking stellen voor wetenschappelijk onderzoek. We stellen dus niet enkel krantenteksten, of ander taalmateriaal dat zich richt tot de gemiddelde lezer van het Nederlands, ter beschikking. We verzamelen ook teksten die zich richten tot mensen met een beperkte geletterdheid, of tot kinderen.

Eenvoudige taal

Dergelijke teksten staan ons toe om na te gaan hoe het taalgebruik verschilt van algemeen taalgebruik: welke woorden worden er al dan niet in gebruikt, welke grammaticale constructies komen veel vaker of veel minder vaak voor, en dergelijke.

Wat eenvoudige taal betreft beschikt het INT momenteel over twee Vlaamse collecties: Het Wablieft-krantenarchief gericht op mensen met een beperkte geletterdheid, en het WAI-NOT nieuwsarchief voor mensen met een verstandelijke beperking.

Kindertaal

Wat kindertaal betreft beschikt het INT momenteel al over BasiLex. Dat is een corpus, dat bestaat uit ongeveer 40% educatieve materialen, zoals schoolboeken en -toetsen, 40% kinderliteratuur en 20% media, onder meer ondertitels en newsfeeds van het Nederlandse Jeugdjournaal.

Daarnaast wordt, samen met Elke Peters van de KU Leuven, nu gewerkt aan een verzameling ondertitels van het VRT-jeugdjournaal Karrewiet. Er werden acht jaargangen ondertitels (meer dan drie miljoen woorden) van het VRT-jeugdjournaal Karrewiet verzameld en automatisch taalkundig verrijkt. Dit houdt in dat we, automatisch, bij elk woord de woordsoort en het lemma toevoegen. Een lemma is de vorm van het woord zoals het in het woordenboek staat.

Taalkundige tools

Voor het toevoegen van de taalkundige informatie, ook wel annoteren genoemd, maken we gebruik van de Europese onderzoeksinfrastructuur CLARIN. Hierin kunnen we tekst uploaden en vervolgens de automatisch geannoteerde data weer downloaden. Om deze data doorzoekbaar te maken, wordt ze geüpload in Autosearch, een tool gebouwd door het INT, specifiek met als doel om grote hoeveelheden verrijkte tekst doorzoekbaar te maken. Eenmaal geüpload kunnen we deze data beschikbaar stellen aan masterstudenten taalkunde die de data kunnen gebruiken in hun eindwerk, door bijvoorbeeld na te gaan welke woordenschat er verwacht wordt van kinderen die naar Karrewiet kijken. Deze woordenschat kan dan vergeleken worden met de woorden die aangeleerd worden aan kinderen die Nederlands leren als vreemde taal, en eventueel kunnen de lijsten met aan te leren woorden hieraan aangepast worden.

Tekstniveau

Daarnaast kunnen dit soort specifieke tekstverzamelingen ook gebruikt worden voor toekomstige taaltechnologische toepassingen. We denken hierbij aan een toepassing die toestaat om het tekstniveau automatisch aan te passen. Zo zouden we een krantenartikel uit De Standaard automatisch kunnen herschrijven naar eenvoudige, klare taal, of automatisch aan kunnen passen naar de taal die gebruikt wordt in Karrewiet. Hoewel dit nog toekomstmuziek is ondersteunt het INT dergelijk onderzoek door nu al verschillende soorten tekstcollecties ter beschikking van onderzoekers te stellen, waaronder verzamelingen eenvoudig Nederlands en taal gericht tot kinderen.

Op deze website maken wij gebruik van cookies.