Woordcombinaties

English

Woorden krijgen vaak pas echt betekenis als ze gebruikt worden in context, dus in combinatie met andere woorden. Zo wordt pas duidelijk in welke betekenis het werkwoord blazen gebruikt is als we het zien in combinatie met wind, rook, bestuurder, aftocht, lachen, enz. De wind blaast is een ander blazen dan hij blies de rook in mijn gezicht, hij blies de aftocht, dat is lachen geblazen of de bestuurder moest blazen. Woordenboeken illustreren betekenissen dan ook meestal met voorbeeldzinnen zodat men woorden in context kan zien. Maar vaak zijn voorbeeldzinnen alleen niet genoeg. Wie een vreemde taal bijna even vloeiend wil leren spreken en schrijven als een moedertaalgebruiker, moet ook een behoorlijk aantal vaste en minder vaste woordcombinaties leren om goed te kunnen communiceren.

Corpusmateriaal

Sinds de ontwikkelingen in de computationele corpuslinguïstiek en de e-lexicografie hebben lexicografen nu de beschikking over immense verzamelingen taalmateriaal (corpora) die ze met lexicografische tools kunnen ontsluiten. Waar vroeger de registratie van combinaties handmatig gebeurde op basis van citatenverzamelingen die beperkt waren in omvang en diversiteit, kunnen we nu in grote corpora met statistische methodes beter inventariseren welke woorden zich graag in elkaars gezelschap ophouden. Combinaties als zwarte chocolade en donkere chocolade, bijvoorbeeld, zijn niet onmogelijk in het Nederlands, maar de combinatie pure chocolade is wel de meest gebruikelijke, zo blijkt uit het Nederlandse corpusmateriaal [1]. In het Engels daarentegen is dark chocolate de gebruikelijke uitdrukking [2]. Pure chocolade en dark chocolate zijn, met andere woorden, geconventionaliseerde woordcombinaties in het Nederlands respectievelijk het Engels. Dankzij de taaltechnologische ontwikkelingen kunnen we dergelijke combinaties nu systematischer en sneller opsporen en registreren.

Taalonderwijs

Competentie in taalproductie vereist kennis van en snelle toegang tot deze taalconventies. Een andere ontwikkeling die dan ook belangrijk is voor de manier waarop we nu onze taal beschrijven, is de toenemende belangstelling vanuit het taalonderwijs in het algemeen en het NT2-onderwijs in het bijzonder voor woordcombinaties, computerondersteund taalleren (computer-assisted language learning, CALL) en de daarbij horende taaltools die leerders ondersteunen bij taalproductie (het spreken en schrijven). Traditionele woordenboeken schieten als productietool tekort, omdat ze voornamelijk geschreven zijn vanuit het standpunt van taalreceptie: ze verklaren woorden en uitdrukkingen, maar geven niet systematisch aan hoe woorden gebruikt worden in context. Met andere woorden, ze geven vooral antwoord op de vraag Wat betekent dit woord of deze uitdrukking?, maar niet of nauwelijks op de vraag Hoe gebruik ik dit woord of deze uitdrukking in een zin of in combinatie met een ander woord? In het Nederlands kunnen we een vrouw versieren, in het Engels niet (*to decorate a woman). Een ander voorbeeld: je kan iemand aanmoedigen vanaf de zijlijn, maar je kan niet iemand supporteren of animeren vanaf de zijlijn. Nochtans worden supporteren, animeren, aanzetten, enz., in een aantal woordenboeken genoemd als synoniemen voor aanmoedigen, maar de werkwoorden worden niet in alle syntactische patronen en betekenissen door elkaar gebruikt.

Het project Woordcombinaties

Het Instituut voor de Nederlandse Taal wil werk maken van een meer systematische inventarisatie en beschrijving van combinaties in een nieuw project Woordcombinaties dat zal bestaan uit een database en een online applicatie voor gebruikers. Een pilot wordt eerst ontwikkeld voor een selectie werkwoorden, omdat een systematische beschrijving van zinspatronen met werkwoorden tot nog toe onderbelicht is gebleven in woordenboeken. 'Combinaties' gebruiken wij in het project als overkoepelende term voor:

  • collocaties: frequente en/of typische semi-vaste combinaties als een aanbod accepteren of afslaan, spelers fanatiek of enthousiast aanmoedigen, supporteren voor, rekenen op, huiswerk maken, boodschappen doen.
  • idiomen: vastere combinaties, vaak met een figuurlijke betekenis, bv. de boot afhouden, de kat de bel aanbinden, Spreken is zilver, zwijgen is goud.
  • patronen: syntactische constructies die corresponderen met bepaalde betekenissen. Patronen met werkwoorden zijn de zogenaamde valentiepatronen waarin zinsdeelplaatsen bezet worden door sets van woorden (lexicale sets, lexical sets) uit een bepaalde semantische categorie (semantisch type, semantic type). In het patroon 'iemand versiert iets' in de zin van 'versieringen aanbrengen', bijvoorbeeld, wordt de dummy 'iets' meestal bezet door woorden uit de categorieën 'fysiek object' of 'ruimte' (de kerstboom, de muur, de kamer). De semantische types zijn dus 'fysiek object' en 'ruimte'. De lexicale set bestaat uit de kerstboom, de muur, de kamer, enz. In het patroon 'iemand1 versiert iemand2' in de zin van 'verleiden' daarentegen, wordt 'iemand2' bezet door het semantisch type 'persoon', ingevuld door de lexicale set een vrouw, een meisje, een man, enz.

Met de systematische beschrijving van bovengenoemde combinatietypes ontstaat op termijn als het ware geen lexicon (een inventaris van woorden), maar een 'constructicon' van de Nederlandse taal (een inventaris van constructies).

Doelgroepen

Gevorderde NT2-leerders en NT2-docenten zijn belangrijke doelgroepen van het project. Het instituut zal dan ook een belangrijke leverancier worden van taaldata op combinatorisch gebied voor taalleerders en docenten, maar daarnaast hebben meer gebruikers baat bij Woordcombinaties:

  • tekstschrijvers in de ruimste zin van het woord: professionele schrijvers, amateurschrijvers, leerlingen en studenten die werkstukken en ander proza schrijven. Zij kunnen het woordenboek als schrijfhulp gebruiken.
  • lexicografen van algemene woordenboeken en vertaalwoordenboeken. Zij kunnen het materiaal in hun woordenboeken opnemen. Ook het INT-project Algemeen Nederlands Woordenboek (ANW) kan het materiaal verwerken.
  • taalkundigen in het algemeen en computerlinguïsten. Zij kunnen het materiaal gebruiken voor taalkundig onderzoek of voor toepassingen in natural language processing (NLP), bijvoorbeeld automatisch vertalen (machine translation). Bestaande computationele lexica kunnen uitgebreid worden met nieuwe meerwoordexpressies en het materiaal kan gebruikt worden als trainingsmateriaal voor machine learning t.b.v. semantisch parseren (semantic parsing), d.i. automatische zinsontleding met de semantische types als toegevoegde betekenisinformatie, hetgeen automatische vertaalprogramma's aanzienlijk kan verbeteren.
  • ontwikkelaars van taalprogramma's voor specifieke doelgroepen. Te denken valt aan Woordcombinaties on demand in de toekomst, waarbij een opdrachtgever een lemmalijst uit zijn domein kan aanleveren als input voor uitdrukkingen uit dat specifieke domein. Bijvoorbeeld: uitdrukkingen die voor nieuwkomers relevant zijn voor een goede communicatie in de spreekkamer van een zorgverlener, bv. de huisarts; uitdrukkingen die gebruikelijk zijn in bepaalde situaties of in iemands werkomgeving; terminologische combinaties uit een bepaald vakgebied, enz.

Opbouw

Woordcombinaties zal in fasen opgebouwd worden. In de eerste fase zullen we goede voorbeeldzinnen aanbieden en woordschetsen met het globale gebruiksprofiel van het werkwoord in lijsten met woorden of woordgroepen die vaak of typisch voorkomen bij het werkwoord. In een volgende fase komen de patronen aan bod. Na de werkwoorden kan het woordenboek uitgebreid worden met combinaties van de naamwoorden (adjectieven en substantieven).

Noten


[1] Zwarte chocolade komt 216 keer (0.07 per miljoen) voor in het Dutch Web Corpus 2014 dat meer dan 2,5 miljard woorden bevat. Donkere chocolade 596 keer (0.20 per miljoen) en pure chocolade 3409 keer (1.13 per miljoen).

[2] Met 43.800 of 1.90 per miljoen treffers in het English Web Corpus 2013 van meer dan 19,5 miljard woorden.

Word combinations

Words often only get real meaning when they are used in a particular context, more specifically in combination with other words. It only becomes clear what the verb blazen ('to blow') is supposed to mean, when we use it in combination with wind ('wind'), rook ('smoke'), bestuurder ('driver'), aftocht ('retreat'), lachen ('to laugh'), etc. In de wind blaast ('the wind blows'), blazen is another type of blazen than in hij blies rook in mijn gezicht ('he blew smoke in my face'), hij blies de aftocht ('he beat the retreat), or de bestuurder moest blazen ('the driver had to blow for an alcoholtest'). That is why dictionaries illustrate different meanings with example sentences to put words into context. But often example sentences are not sufficient. Whoever wants to use a second language as a near-native speaker, needs to learn a large amount of fixed and less fixed word combinations in order to communicate well.

Corpus material

Thanks to developments in computational linguistics and e-lexicography, lexicographers now have access to vast collections of language material (corpora) that they can access with lexicographical tools. In the past, combinations were registered manually on the basis of quotations that were limited in size and diversity, but now it is much easier to take stock of which words like each other's company, by using statistical methods in large corpora. For example, the corpus material shows that combinations like zwarte chocolade and donkere chocolade can be used in Dutch, but the combination pure chocolade is by far the most frequently used [1]. In English, however, the combination dark chocolate is the most frequently used [2]. Pure chocolade and dark chocolate are, in other words, conventionalised word combinations in Dutch and English respectively. Thanks to developments in language engineering, we can now locate and register such combinations faster and more systematically.

Language education

Competency in language production requires knowledge of and quick access to these language conventions. Another development which is therefore important to the way we describe our language, is the increasing interest the world of language education in general and NT2 (Dutch as a second language) education in particular is showing in word combinations, computer-assisted language learning (CALL) and the accompanying language tools that support learners in their language production (speaking and writing). Traditional dictionaries fail as a production tool, because they are primarily written from the perspective of language reception: they explain words and expressions, but they do not systematically indicate how words are used in context. In other words, they do provide an answer to the question What does this word or expression mean?, but mostly ignore the question How do I use this word or expression in a sentence or in combination with another word? For example, the Dutch expression een vrouw versieren makes no sense in English: to decorate a woman is not a normal expression; in English you would use the expression to pick up a woman. Another example: you can cheer someone on from the sidelines (iemand aanmoedigen vanaf de zijlijn), but you cannot support someone or animate someone from the sidelines (iemand supporteren of animeren vanaf de zijlijn). Although some Dutch dictionaries list supporteren, animeren and aanzetten as synonyms for aanmoedigen, the verbs are not interchangeable in all syntactic patterns and meanings.

The project Word Combinations

The Dutch Language Institute wants to work on a more systematic inventory and description of combinations in a new project Woordcombinaties, which will consist of a database and an online application for users. A pilot is being developed for the selection of verbs, because the systematic description of the sentence patterns with verbs has so far been neglected in dictionaries. In this project, we use 'Combinations' as an umbrella term for:

  • collocations: frequent and/or typical semi-fixed combinations such as een aanbod accepteren or afslaan, spelers fanatiek or enthousiast aanmoedigen, supporteren voor, rekenen op, huiswerk maken, boodschappen doen.
  • idioms: fixed combinations with a figurative meaning, for example, de boot afhouden, de kat de bel aanbinden, Spreken is zilver, zwijgen is goud.
  • patterns: syntactic constructions that correspond with certain meanings. Patterns with verbs are the so-called valency patterns in which sentence subsections are occupied by sets of words (lexical sets) from a specific semantic category (semantic type). In the pattern 'iemand versiert iets' in the sense of 'versieringen aanbrengen', for example, the dummy 'iets' becomes mostly occupied by words from the categories 'physical object' or 'space' (de kerstboom, de muur, de kamer). This means the semantic types are 'physical object' and 'space'. The lexical set is composed of de kerstboom, de muur, de kamer, etc. In the pattern 'iemand1 versiert iemand2' in the sense of 'verleiden', on the other hand, 'iemand2' is occupied by the semantic type of 'persoon', filled in by the lexial set een vrouw, een meisje, een man, etc.

The systematic description of the above-mentioned combination types will eventually result in something we could call a 'constructicon' (an inventory of constructions) of the Dutch language instead of a lexicon (an inventory of words).

Target groups

Advanced Dutch second language ('NT2') learners and teachers are important target groups of this project. The institute will therefore be an important supplier of combinatorial language data for language learners and teachers. Other users who will benefit from Word combinations are:

  • writers in the broadest sense of the word: professional writers, amateur writers, school children and students who are writing papers and other prose. They can use the dictionary as a writing aid.
  • lexicographers of general dictionaries and bilingual dictionaries. They can use the material in their dictionaries. The INT project Dictionary of Contemporary Dutch (ANW) can use the material as well.
  • linguists in general and computer linguists. They can use the material for linguistic research or for applications in natural language processing (NLP), for example machine translation. New multiword expressions can be included in existing computational lexicons, and the material can be used as training material for machine learning for the purpose of semantic parsing, i.e. automatic parsing with the semantic types providing extra information on word senses, which can improve the automatic translation programmes considerably.
  • developers of language programmes for specific audiences. Future examples may be Word Combinations on demand, allowing a client to provide a lemma list from his domain as input for expressions belonging to that specific domain. For example: expressions relevant to newcomers for the purpose of good communication in the consultation room of a healthcare provider, such as the general practitioner; expressions that are common in certain situations or in one's working environment; terminological combinations from a particular discipline, etc.

Building phases

Word combinations will be developed in phases. In the first phase, we will provide good example sentences and word sketches with the global usage profile of the verb in lists of words or word groups that are frequently or typically used in combination with the verb. In a next phase, the patterns will be discussed. With the verbs finished, the dictionary can be expanded with combinations of the nouns (adjectives and nouns).

Notes


[1] Zwarte chocolade occurs 216 times (0.07 per million) in the Dutch Web Corpus 2014, which contains more than 2.5 billion words. Donkere chocolade 596 times (0.20 per million) and pure chocolade 3409 (1.13 per million).

[2] With 43,800 or 1.90 per million hits in the English Web Corpus 2013, which contains more than 19.5 billion words.

Op deze website maken wij gebruik van cookies.