Categorieën
Onderzoek & projecten

Woord­combinaties

Het Instituut voor de Nederlandse Taal (INT) houdt zich in het project Woordcombinaties bezig met de verschillende combinaties die woorden kunnen aangaan met andere woorden. Het project zal bestaan uit een database en een onlineapplicatie en is vooral nuttig voor NT2-leerders: mensen die Nederlands leren als tweede taal.

English

Word Combinations

You know what you want to say, but you can’t find the right words. Are you not sure about the correct preposition to use? Is de kurk waarop een zaak drijft (‘the mainstay of a business’)  a thing or a person or both? Is there really something to be checked out when you say kun je nagaan! (comparable with English ‘check it out!’)? How to specify verbs like formuleren (‘formulate’) or definiëren (‘define’)?

Both language learners and native speakers are continuously wrestling with questions like these and are in need of a tool that helps them find common word combinations.

There never used to be such a tool for verbs, but this has changed. At the Dutch Language Institute (INT) we are working on the Word Combinations project and the first results have been published at https://woordcombinaties.ivdnt.org.

About Word Combinations and how to use the application

Word Combinationsis a freely available online application in which you can look up how verbs are used in context and combined with each  other in newspaper and website texts.

There are three search options, presented in tabs ordered from simple to complex:

Sentence examples: look up the key word in representative sentence examples.

These sentences have not been made up by an editor, but are derived from a corpus of contemporary texts, mostly from newspapers (NRC and De Standaard). This means the corpus contains texts from both the Netherlands and Flanders.

Possible combinations: with what other words or word groups can the keyword be combined?

The possible combinations show lists with so-called collocates: words and word groups often and/or typically combined with the search word. When a user clicks on a word from a list, they will see a sentence example with the combination.

Patterns: how to build sentences with the keyword.

The search option ‘patterns’ is the most complex one. It enables users to discover the relations between structures, collocates and meanings.

Who is Word Combinations for?

The main target group is Dutch specialists abroad and other advanced C-level NT2/NVT learners, but the tool is also useful for other target groups, for example secondary school pupils and teachers, linguists, copywriters, developers of educational material and translators.

A combination dictionary van only be used optimally if it contains enough material, and this is no different for Word Combinations. But even in its developmental phase, the project can already be of great use to language education: the material can be used in writing aids, programs for computer-based and data-driven learning and in grammars and dictionaries. An example of data-driven learning could be that the pupils use the example sentences to make an inventory of all construction types occurring with a verb, learning to contextualize not just in one sentence but in a much larger repertory of sentence types. The possibilities for didactic applications are many and diverse. We will keep adding combinations to Word Combinations for all verbs and nouns of the Nederlandse frequentiewoordenboek (Dutch frequency dictionary) (Tiberius & Schoonheim, 2013). The application possibilities will also be optimized.

Products/Applications

Search Word Combinations

Woorden krijgen vaak pas echt betekenis als ze gebruikt worden in context, dus in combinatie met andere woorden. Zo wordt pas duidelijk in welke betekenis het werkwoord blazen gebruikt is als we het zien in combinatie met wind, rook, bestuurder, aftocht, lachen, enz. De wind blaast is een ander blazen dan hij blies de rook in mijn gezicht, de bestuurder moest blazen, hij blies de aftocht of dat is lachen geblazen. Woordenboeken illustreren betekenissen ook meestal met voorbeeldzinnen zodat je woorden in context kunt zien. Maar vaak zijn voorbeeldzinnen alleen niet genoeg. Wie een vreemde taal bijna even vloeiend wil leren spreken en schrijven als een moedertaalgebruiker, moet ook een behoorlijk aantal vaste en minder vaste woordcombinaties en zinspatronen leren om goed te kunnen communiceren.

Corpusmateriaal

Door ontwikkelingen in de computationele corpuslinguïstiek en de e-lexicografie hebben lexicografen nu de beschikking over grote verzamelingen taalmateriaal (corpora) die ze met lexicografische tools kunnen ontsluiten. Vroeger gebeurde de registratie van combinaties handmatig op basis van citatenverzamelingen die beperkt waren in omvang en diversiteit. Maar nu kunnen we nu in grote corpora met statistische methodes veel beter inventariseren welke woorden zich graag in elkaars gezelschap ophouden. Combinaties als zwarte chocolade en donkere chocolade, bijvoorbeeld, zijn niet onmogelijk in het Nederlands, maar de combinatie pure chocolade is wel de meest gebruikelijke, zo blijkt uit het Nederlandse corpusmateriaal (*). In het Engels daarentegen is dark chocolate de gebruikelijke uitdrukking (*). Pure chocolade en dark chocolate zijn, met andere woorden, geconventionaliseerde woordcombinaties in het Nederlands respectievelijk het Engels. Dankzij taaltechnologische ontwikkelingen kunnen we dergelijke combinaties nu systematischer en sneller opsporen en registreren.

Taalonderwijs

Competentie in taalproductie vereist kennis van en snelle toegang tot deze taalconventies. Zowel in het algemeen onderwijs als het NT2-onderwijs is er vraag naar tools die computerondersteund taalleren (computer-assisted language learning (CALL) ondersteunen en dan  met name op het gebied van taalproductie (het spreken en schrijven). Traditionele woordenboeken voorzien minder in die behoefte, omdat ze voornamelijk geschreven zijn vanuit het standpunt van taalreceptie: ze verklaren woorden en uitdrukkingen, maar geven niet systematisch aan hoe woorden gebruikt worden in context. Met andere woorden, ze geven vooral antwoord op de vraag Wat betekent dit woord of deze uitdrukking?, maar niet of nauwelijks op de vraag Hoe gebruik ik dit woord of deze uitdrukking in een zin of in combinatie met een ander woord? In het Nederlands kunnen we een vrouw versieren, in het Engels niet (*to decorate a woman). Een ander voorbeeld: je kan iemand aanmoedigen vanaf de zijlijn, maar je kan niet iemand supporteren of animeren vanaf de zijlijn. Toch worden supporteren, animeren, aanzetten, enz., in een aantal woordenboeken genoemd als synoniemen voor aanmoedigen, maar de werkwoorden worden niet in alle syntactische patronen en betekenissen door elkaar gebruikt.

Het project Woordcombinaties

Het Instituut voor de Nederlandse Taal wil werk maken van een meer systematische inventarisatie en beschrijving van combinaties in een nieuw project Woordcombinaties dat zal bestaan uit een database en een applicatie voor gebruikers. Er is een pilot ontwikkeld voor een selectie werkwoorden, omdat een systematische beschrijving van zinspatronen met werkwoorden tot nog toe onderbelicht is gebleven in woordenboeken. ‘Combinaties’ gebruiken wij in het project als overkoepelende term voor:

  • collocaties: frequente en/of typische semivaste combinaties als een aanbod accepteren of afslaan, spelers fanatiek of enthousiast aanmoedigen, supporteren voor, rekenen op, huiswerk maken, boodschappen doen.
  • idiomen: vastere combinaties, vaak met een figuurlijke betekenis, bv. de boot afhouden, de kat de bel aanbinden, Spreken is zilver, zwijgen is goud.
  • patronen: syntactische constructies die corresponderen met bepaalde betekenissen. Patronen met werkwoorden zijn de zogeheten valentiepatronen waarin zinsdeelplaatsen bezet worden door sets van woorden (lexicale sets, lexical sets) uit een bepaalde semantische categorie (semantisch type, semantic type). In het patroon ‘iemand versiert iets’ in de zin van ‘versieringen aanbrengen’, bijvoorbeeld, wordt de dummy ‘iets’ meestal bezet door woorden uit de categorieën ‘fysiek object’ of ‘ruimte’ (de kerstboom, de muur, de kamer). De semantische types zijn dus ‘fysiek object’ en ‘ruimte’. De lexicale set bestaat uit de kerstboom, de muur, de kamer, enz. In het patroon ‘iemand1 versiert iemand2‘ in de zin van ‘verleiden’ daarentegen, wordt ‘iemand2’ bezet door het semantisch type ‘persoon’, ingevuld door de lexicale set een vrouw, een meisje, een man, enz.

Met de systematische beschrijving van bovengenoemde combinatietypes ontstaat op termijn als het ware geen lexicon (een inventaris van woorden), maar een ‘constructicon’ van de Nederlandse taal (een inventaris van constructies).

Doelgroepen

Gevorderde NT2-leerders (C-niveau) en NT2-docenten zijn belangrijke doelgroepen van het project. Het instituut zal dan ook een belangrijke leverancier worden van taaldata op combinatorisch gebied voor taalleerders en docenten, maar daarnaast hebben meer gebruikers baat bij Woordcombinaties:

  • tekstschrijvers in de ruimste zin van het woord: professionele schrijvers, amateurschrijvers, leerlingen en studenten die werkstukken en ander proza schrijven. Zij kunnen het woordenboek als schrijfhulp gebruiken.
  • lexicografen van algemene woordenboeken en vertaalwoordenboeken. Zij kunnen het materiaal in hun woordenboeken opnemen. Ook het INT-project Algemeen Nederlands Woordenboek (ANW) kan het materiaal verwerken.
  • taalkundigen in het algemeen en computerlinguïsten. Zij kunnen het materiaal gebruiken voor taalkundig onderzoek of voor toepassingen in natural language processing (NLP), bijvoorbeeld automatisch vertalen (machine translation). Bestaande computationele lexica kunnen uitgebreid worden met nieuwe meerwoordexpressies en het materiaal kan gebruikt worden als trainingsmateriaal voor machine learning t.b.v. semantisch parseren (semantic parsing), d.i. automatische zinsontleding met de semantische types als toegevoegde betekenisinformatie, hetgeen automatische vertaalprogramma’s aanzienlijk kan verbeteren.
  • ontwikkelaars van taalprogramma’s voor specifieke doelgroepen. Te denken valt aan Woordcombinaties on demand in de toekomst, waarbij een opdrachtgever een lemmalijst uit zijn domein kan aanleveren als input voor uitdrukkingen uit dat specifieke domein. Bijvoorbeeld: uitdrukkingen die voor nieuwkomers relevant zijn voor een goede communicatie in de spreekkamer van een zorgverlener, bv. de huisarts; uitdrukkingen die gebruikelijk zijn in bepaalde situaties of in iemands werkomgeving; terminologische combinaties uit een bepaald vakgebied, enz.

Opbouw

Woordcombinaties zal in fasen opgebouwd worden. In een eerste fase wordt de combinatoriek van werkwoorden bewerkt. In een volgende fase komen de patronen aan bod. Na de werkwoorden kan het woordenboek uitgebreid worden met combinaties van de naamwoorden (adjectieven en substantieven).