Categorieën
Nieuws

Digitaaljaar: Carole en computerlinguïstiek

Op 26 februari 2024 hield onze INT-collega Carole Tiberius haar inaugurele rede: de eerste officiële toespraak in haar functie als hoogleraar computerlinguïstiek. Naast haar toegepaste wetenschappelijke werk op het Instituut voor de Nederlandse Taal zet ze zich door middel van onderzoek en onderwijs in voor het vak bij het Leiden University Centre for Linguistics.

Foto: Boukje Verheij

“Computerlinguistiek is een vakgebied dat zich bezighoudt met de wetenschappelijke studie van natuurlijke taal vanuit een computationeel perspectief,” begint de kersverse hoogleraar haar toespraak. Wat volgt is een helder overzicht van het vakgebied. Ze vertelt over het belang van gestructureerde taaldata voor gebruik door de computer, de cruciale rol van de context van woorden, en ze geeft voorbeelden van het belang van corpora: grote, taalkundig verrijkte verzamelingen geschreven of gesproken tekst.

Met iemand babbelen over iets

In haar onderzoek richt Carole zich vooral op de fraseologie, de studie van woordcombinaties. Daar waar de fraseologie zich voorheen vooral bezighield met de vaste en ondoorzichtige combinaties van woorden (uitdrukkingen zoals het vat der Danaïden vullen, ‘een werk doen dat nooit afkomt’ (Van Dale)), bestrijkt het vakgebied nu een veel breder scala aan combinaties. Caroles specifieke interesse ligt bij de studie van patronen, semantisch gemotiveerde terugkerende structuren van woorden. Zo komt het werkwoord babbelen vaak voor in het patroon iemand babbelt met iemand over iets, wat zoiets betekent als ‘iemand praat gezellig met iemand over iets’. Het vaststellen van patronen van een (werk)woord op basis van corpusdata is nu nog hoofdzakelijk een computerondersteund handmatig proces. Carole onderzoekt hoe we dit proces zo goed mogelijk kunnen automatiseren.

Haar werk op het Instituut voor de Nederlandse Taal blijft Carole voortzetten. Daarnaast maakt ze zich als hoogleraar computerlinguïstiek aan de Universiteit Leiden sterk voor het behoud en de ontwikkeling van de verdere digitalisering van onder andere het Nederlands.

Een greep uit digitaliseringsprojecten waaraan prof. dr. Carole Tiberius (heeft ge)werkt:

  • Vertaalwoordenschat, een online platform voor meertalige woordenboeken
  • Het ELEXIS-project (European lexicographic infrastructure) (2018-2022)
  • Language Data Space (LDS) (1/2023-1/2026).
  • ELRC-initiatief (European Language Resource Coordination) (2015-2023).
  • UniDive, COST-actie gewijd aan universaliteit en diversiteit in taaltechnologie
  • NexusLinguarum, COST-actie rond webgerichte taalkundige datawetenschap
  • CrowLL (Crowdsourcing for Language Learning). Het creëren van pedagogische corpora voor het Nederlands, Ests, Sloveens en Portugees door toepassing van crowdsourcingtechnieken


Laatste nieuwsberichten:

Of bekijk alle nieuwsberichten.