Het WNT: een schitterende diamant in een elektronische schatkamer
door Truus Kruyt
Dit artikel is gepubliceerd in Trefwoord 13, Jaarboek Lexicografie 1998-1999, pp. 84-86.
In zijn inleiding op het WNT-deel A-Ajuin verwoordt Matthias de Vries wat het WNT beoogt te zijn: een "Nederlandsch Taalmuseum", "eene schatkamer der taal", "bestemd om al hare schatten behoorlijk ten toon te spreiden" (LXXIV, LXXXIV, II). Dat museum is er nu. Met het WNT op cd-rom worden de taalschatten alweer beter getoond. En reeds nu zijn er nieuwe toekomstperspectieven voor het WNT die De Vries' intentie nog meer eer aan doen. Het WNT is als een diamant: inherent mooi, maar vakkundig slijpen maakt hem steeds schitterender. Dat slijpen gebeurt ook na 1998, in de projecten WNT op peil en Geïntegreerde Taalbank 8ste-21ste Eeuw (kortweg Taalbank).
Een geoptimaliseerd WNT zal een belangrijke component zijn van de Taalbank, een elektronische schatkamer van het Nederlands van de oudste tot de modernste tijd. Wat komt er zoal in die Taalbank? Elektronische woordenboeken, elektronische teksten en allerlei taalkundige bestanden, die betrekking hebben op diverse eeuwen Nederlands. Al die gegevens worden volgens een linguïstisch verantwoord concept aan elkaar gekoppeld in een databank. En dat op zo'n manier dat onderzoekers die iets willen weten over de Nederlandse taal (en cultuur), op eenvoudige wijze vragen kunnen stellen aan die Taalbank. Zo ben je bijvoorbeeld geïnteresseerd in het begrip 'wijsheid' en wil je weten welke woorden uit het verleden en heden een betekenis hebben die hieraan gerelateerd is. Of je vraagt om alle negentiende-eeuwse woorden die het kenmerk 'instrument' hebben. Of je kiest een woord in een bepaalde betekenis uit het MNW (Middelnederlandsch Woordenboek) en vraagt om alle synoniemen ervan in het WNT, met daarbij de tekstfragmenten waarin ze voorkomen, etc. Voor het zover is, moet er nog veel gebeuren. We geven hiervan een indruk, met speciale aandacht voor het WNT.
Het WNT vertegenwoordigt in de Taalbank de periode tussen pakweg 1500 en 1976. Het WNT zal gekoppeld worden aan elektronische teksten uit die periode. Een onderzoeker kan dan bij WNT-gegevens meer tekst opvragen, of vanuit een willekeurige tekst het WNT raadplegen. Welke teksten in de Taalbank worden opgenomen wordt medebepaald door het bronnenbestand van het WNT. De koppeling tussen het WNT en de teksten is er niet zo maar. De woorden in de teksten hebben verschillende spellingen en flexievormen, die vaak niet corresponderen met de lemmavormen in het WNT. Voor bevredigende zoekacties in de Taalbank moeten de woordvormen op enigerlei wijze gerelateerd worden aan eenduidige lemmavormen. Lemmatisering naar de spelling van het WNT is echter niet voldoende. Omdat er ook een koppeling zal zijn met taalbankbronnen uit oudere en jongere taalfasen, zullen alle woordvormen uiteindelijk gerelateerd zijn aan lemma's in de huidige spelling. Er zijn ook andere relaties tussen het WNT en de teksten denkbaar. Je zou bij een citaat in het WNT uit 1670 direct teksten uit specifiek dat jaar kunnen opvragen, of, vice versa, citaten in het WNT bij een specifieke tekst. Iets dergelijks is mogelijk met auteursnamen, of combinaties van auteur/datering etc. Ook is een verband mogelijk tussen de vaktaallabels in het WNT en de classificaties van teksten naar onderwerp, via een ontologie van 'onderwerpsdomeinen'. Hiervoor zijn internationale standaarden in ontwikkeling.
Ook bij de koppeling tussen het WNT, het MNW, het VMNW (Vroegmiddelnederlands Woordenboek) en hedendaagse woordbestanden is een vorm van lemmatisering een minimale voorwaarde om woorden door de eeuwen heen te kunnen zoeken. Er kunnen ook andere verbanden worden gelegd, op basis van de typen gegevens in de woordenboeken. Dit kan gaan om etymologieën, om dialect-geografische of morfologische informatie, om collocaties, om synoniemen, antoniemen en andere relaties tussen woordbetekenissen, etc. De problematiek die zich hier voordoet is complex maar niet geheel onbekend. Voor diverse toepassingen in de informatie- en communicatietechnologie worden verschillende een- en meertalige woordenboeken met elkaar gecombineerd in één lexicale databank. Zo'n systeem functioneert als kennisbank in o.a. systemen voor automatisch vertalen, information retrieval of mens-machinecommunicatie. De koppeling van de woordenboeken in de Taalbank heeft bijzondere aspecten door de historische dimensie.
De tot nu toe genoemde relaties zijn impliciet min of meer gebaseerd op tekstuele kenmerken of op gegevenstype (het type informatie dat een stukje tekst biedt: etymologie, betekenisomschrijving, citaat, auteursnaam etc.). Nog interessanter wordt het als koppelingen op conceptueel niveau kunnen worden aangebracht, onafhankelijk van de expressie van de concepten in taal. Dan zou het mogelijk zijn om zoekvragen te formuleren met een concept als uitgangspunt, in plaats van een woord, een betekenis of ander gegevenstype uit een woordenboek. Dit is uiterst ambitieus. Als dit stadium aan de orde komt, zijn wederom inzichten en ervaringen vanuit de informatie- en communicatietechnologie bruikbaar. Daar worden ontologieën ontwikkeld die onze kennis structureren in termen van conceptuele klassen en relaties daartussen. De meeste ontologieën zijn toepassingsgericht en ze verschillen daardoor sterk van elkaar. Er is nog geen consensus over de te onderscheiden klassen en relaties in een universele ontologie, mocht die er — gezien de verschillen tussen culturen en talen — überhaupt zijn. Taal- en cultuurverschillen zijn inherent aanwezig in de Taalbank, met zoveel eeuwen Nederlands.
De vraag rijst nu in hoeverre en hoe zo'n Taalbank te realiseren is. De technische realisatie laten we hier buiten beschouwing. Maar algemeen geldt: om inhoudelijke informatie uit een databank te halen, moet die informatie er voor een computer herkenbaar en dus (meestal) expliciet in aanwezig zijn. Voor de informatie in het WNT en in de andere bronnen die in de Taalbank komen, is dit lang niet altijd het geval. De cd-rom van het WNT geeft een indruk van wat automatisch aan gegevenstypen te expliciteren is op basis van vorm- en structuurkenmerken van het WNT. Verbetering van de zoekmogelijkheden vereist het aanvullen van hiaten (bijv. dateringen in de oude delen), het uniformeren van inconsistenties (bijv. in de bronvermeldingen) en het expliciteren van andere gegevenstypen. Inhoudelijke optimalisering van het WNT, die beoogd wordt in het project WNT op peil, verhoogt de kwaliteit van de Taalbank als geheel. Voor het MNW geldt mutatis mutandis hetzelfde. De informatie in het VMNW is van meet af aan systematisch opgeslagen in een databasestructuur en is daardoor veel beter verwerkbaar in de Taalbank. Ook de teksten zullen worden bewerkt. Lemmatisering en tekstclassificatie zijn reeds genoemd. Volgens vigerende standaarden (SGML/XML, TEI e.d.) zullen tekstuele kenmerken en structuren worden gecodeerd en zullen relaties binnen en tussen teksten worden aangebracht. Aan de in de taalbankbronnen aanwezige gegevens kan ook informatie worden toegevoegd uit externe bronnen, zoals de lexica PAROLE, Eurowordnet-Nederlands en het Referentie Bestand Nederlands, of diverse typen ontologieën als hierboven gesuggereerd. Wat haalbaar is en op welke termijn hangt mede af van de mate waarin (semi-)automatische procedures gebruikt kunnen worden voor de verrijking van de Taalbank met de gewenste informatie.
Duidelijk is dat de realisering van de Taalbank geen sinecure is en, net als het WNT destijds, een zorgvuldig opgesteld plan vereist. De Vries verzucht in zijn Inleiding "Een woordenboek, dat onze taal in hare gansche geschiedenis gedurende een tijdvak van zeven eeuwen, op alle trappen harer veelzijdige ontwikkeling, vertegenwoordigde (...): voorzeker, dat ware een heerlijk ideaal! (...) Of dat ideaal misschien voor een later geslacht bereikbaar zal zijn, laat zich thans niet gissen." (XXXVII). De Geïntegreerde Taalbank 8ste-21ste Eeuw is een stap verder in die richting.