GaLaHaD & LAnCeLoT Workshop

Workshop over het (automatisch) taalkundig verrijken van historische teksten.

English version

Historical texts are a crucial source for research in historical linguistics and digital humanities. Linguistic enrichment (also known as annotation), such as assigning a modern Dutch lemma and a part of speech tag, facilitates searching through and analysing large volumes of written text. 

During this workshop, we introduce GaLAHaD and LAnCeLoT, two powerful tools developed by the Dutch Language Institute for the automatic enrichment and manual refinement of linguistic annotation in historical corpora. 

  • GaLAHaD (Generating Linguistic Annotations for Historical Dutch) provides a flexible environment for automatic enrichment and the evaluation of enrichment tools. Users can automatically add part-of-speech tags and lemmas, inspect the results, and analyze the performance of various tools using a given gold standard. 
  • LAnCeLoT (Linguistic Annotation Corpus Laundry Tool) enables researchers to manually correct and refine enrichments, such as those from GaLAHaD, which is essential for high-quality corpus analysis. 

After a brief introduction, both tools will be demonstrated with a hands-on example. In a joint hands-on session, we will walk through the process of automatic enrichment and correction of a historical dataset. 

In addition to presenting our enrichment tools, we are pleased to welcome Prof. Dr. Alexandra Simonenko and Dr. Yiming Liangb. They will introduce the CAUSALITY project, an ERC-funded project at Ghent University that investigates the mechanisms behind language change through simulations and historical treebanks, aiming to build a large-scale treebank for historical Dutch. This treebank can then be enriched and analyzed using tools such as GaLAHaD. 
Furthermore, Eleanor Smith (Vrije Universiteit Amsterdam) will introduce Task 3.1 of SSHOC-NL, which supports researchers in using and evaluating enrichment tools like GaLAHaD in a conscious, methodologically sound manner. 

Dit evenement is gratis, graag wel aanmelden via de knop onderaan.

Historische teksten vormen een belangrijke bron voor onderzoek in de historische taalkunde en digital humanities. Taalkundige verrijking (annotatie), zoals het toekennen van een modern Nederlands lemma en een woordsoort, vergemakkelijkt het doorzoeken en analyseren van deze teksten, zonder dat spellingvariatie een hindernis vormt. 

Tijdens deze workshop in het kader van SSHOC-NL Taak 3.1 introduceren we GaLAHaD en LAnCeLoT, twee krachtige tools ontwikkeld door het Instituut voor de Nederlandse Taal voor het automatisch verrijken en manueel verbeteren van taalkundige annotatie in historische corpora. 

  • GaLAHaD (Generating Linguistic Annotations for Historical Dutch) biedt een flexibele omgeving voor automatische verrijking en evaluatie. Gebruikers kunnen automatisch woordsoort en lemma laten toevoegen door de machine en daarna de resultaten inspecteren, en de prestaties van verschillende tools analyseren aan de hand van een opgegeven gouden standaard. 
  • LAnCeLoT (Linguistic Annotation Corpus Laundry Tool) stelt onderzoekers in staat om verrijkingen handmatig te corrigeren en te verfijnen, wat essentieel is voor hoogwaardige corpusanalyse. 

Na een korte introductie worden beide tools toegelicht aan de hand van een hands-on voorbeeld. We doorlopen samen het proces van automatische verrijking en correctie van een historische dataset. 

Bovenop het voorstellen van onze verrijkingstools hebben we ook het genoegen om prof. dr. Alexandra Simonenko en dr. Yiming Liang (Universiteit Gent) aan het woord te laten. Zij zullen het CAUSALITY-project toelichten, een ERC-project aan de Universiteit Gent dat de mechanismen achter taalverandering onderzoekt via simulaties en historische treebanks. Daarvoor zal er een grote treebank voor historisch Nederlands gebouwd worden met hulp van GaLAHaD die voor een deel van de morfologische annotatie zal zorgen die vervolgens met een syntactisch Penn-stijl-laagje verrijkt zal worden. 

Na afloop is er een informeel samenzijn tot 18:30 uur.

Datum en Tijd:
woensdag 9 april 2025
Van 13:45 tot 17:00 uur
Locatie:
Leiden, Lipsius Building, Room LIPS 1.30
Cleveringaplaats 1
2311 BD Leiden


Bekijk de locatie op Google Maps
Kosten:
Dit evenement is gratis.
Er zijn nog 8 plaatsen beschikbaar.

×
  • Scholier
  • Student
  • Taalleerder (NT2-leerder, NVT-leerder)
  • Professionele taalgebruiker (journalist, vertaler, tekstschrijver, etc.)
  • Taalonderzoeker (taalkundige, wetenschapper etc.)
  • Taaldocent
  • Taalliefhebber
Ga naar de inhoud