AI: artificial intelligence; technologie waardoor een systeem het menselijk denkvermogen kan nabootsen, zodat het zelfstandig bepaalde menselijke taken kan uitvoeren; kunstmatige intelligentie
annotatie: verrijking van tekst met extra informatie
annoteren: verrijken van tekst met extra informatie
antroponymisch: met betrekking tot persoonsnamen
applicatie: computerprogramma voor eindgebruikers
artesteksten: genre van praktische en informatieve Middelnederlandse teksten, waarin kennisoverdracht centraal staat
attestatie: bewijs (in een tekst of een spraakbestand) voor het bestaan van een woord
attestatiemateriaal: bron die gebruikt wordt om bewijzen te vinden voor het bestaan van een woord
bron(nen)materiaal: teksten die als basis dienen voor het maken van woordenboeken, corpora en lexica
complementatiepatroon: vaste set syntactische combinatiemogelijkheden bij een woord
computationeel: met behulp van een computer (gemaakt)
corpus: grote verzameling geschreven of gesproken teksten, gemaakt om een taal te bestuderen en te beschrijven
corpusapplicatie: computerprogramma waarmee in tekstverzamelingen of in één specifieke tekstverzameling kan worden gezocht
diachroon: gericht op of m.b.t. de historische ontwikkeling; niet beperkt tot één periode
entry: trefwoord; ingang in een woordenboek of lexicon
entrylijst: lijst trefwoorden; lijst ingangen in een woordenboek of lexicon
equivalent: (woord) met een gelijke betekenis
etymologie: de herkomst van een woord of, meer in het algemeen, de studie van de herkomst van woorden
etymologisch: met betrekking tot de herkomst van een woord of van woorden
geannoteerd: verrijkt met extra informatie
generatieve AI: type kunstmatige intelligentie dat kan worden gebruikt om nieuwe en originele content te creëren, variërend van tekst en afbeeldingen tot muziek en video
getranscribeerd: overgebracht van een handgeschreven of gedrukte tekst, een tekstafbeelding of een geluidsfragment naar een digitaal (tekst)bestand, bijv. door overtypen
glos(se): verklarende aantekening of vertaling van een woord tussen de regels of in de marge (van een middeleeuws handschrift)
hiërarchisch: op basis van verschillende rangen (geordend)
hoofdtrefwoord: hoofdvorm van een woord; trefwoord waaronder je de betekenis, vertaling of spelling van een woord in bijv. een woordenboek kunt opzoeken
infrastructuur: geheel van voorzieningen, bijv. een speciaal ingerichte webomgeving waardoor het mogelijk is gezamenlijk aan een project te werken
lemma: hoofdvorm van een woord; trefwoord waaronder je de betekenis, vertaling of spelling van een woord in bijv. een woordenboek kunt opzoeken
lexicografie: beschrijving van de woordenschat door het maken van o.a. woordenboeken
lexicologie: wetenschap die de woordenschat bestudeert
lexicon: gestructureerde dataset met lemma’s (hoofdvormen van woorden) en allerlei taalkundige informatie over die woorden, bijv. woordsoort, mogelijke woordvormen en uitspraak
machinevertaling: technologie die gebruikmaakt van software om tekst of gesproken taal automatisch van de ene taal naar de andere te vertalen
manueel geverifieerd: handmatig gecontroleerd
metadata: extra gegevens die bij (taalkundige) data worden vermeld; ‘data over data’, bijv. datering, auteursnaam, locatie
morfeem: kleinste woordeenheid met een zelfstandige betekenis of betekenisbepalende functie
morfologie: leer van de woordvorming en woordstructuur; bestudering van de vormen, verbuigingen, vervoegingen en afleidingen van woorden
morfologisch: m.b.t. de woordvorming en woordstructuur
morfosyntactisch: m.b.t. woorddelen en hun functie in zinsverband
morfosyntaxis: leer van de woorddelen m.b.t. hun functie in zinsverband
n-gram: reeks opeenvolgende woorden in een lopende tekst, waarbij n voor het aantal woorden staat
named entities: begrippen die worden aangeduid met een eigennaam en die bijv. een persoon, plaats of organisatie vertegenwoordigen
named entity recognition: automatische herkenning van eigennamen
named entity recognizer: computerprogramma voor automatische herkenning van eigennamen
OCR: Optical Character Recogniton of optische tekenherkenning; methode om een afbeelding van tekst om te zetten in digitale, bewerkbare tekst
OCR-postcorrectie: correctie, vaak m.b.v. een slimme tool, van tekst die automatisch is gegenereerd met optische tekenherkenning
onomasiologisch: m.b.t. de verschillende woorden die er voor één begrip (concept) bestaan
paradigma: grammaticaal geheel van de vervoegde of verbogen vormen van een bepaald woord
parser: computerprogramma dat de syntactische structuur van zinnen of de morfologische structuur van woorden ontleedt
parseren: syntactisch ontleden
part of speech: woordsoort
PoS: part of speech; woordsoort
PoS-tag: digitaal label dat van een woordvorm de woordsoort aangeeft
PoS-tagging: het aanbrengen van digitale labels die per woordvorm de woordsoort aangeven
semantiek: betekenisleer; wetenschap die zich bezighoudt met de betekenis van woorden
semantisch: m.b.t. de betekenis(leer)
semasiologisch: m.b.t. de verschillende betekenissen die één woord kan hebben
synchroon: gelijktijdig; gericht op hetzelfde tijdvak, zonder te kijken naar de historische ontwikkeling
synoniem: (woord) met dezelfde betekenis
synoniemdefinitie: definitie die bestaat uit een of meer woorden met dezelfde betekenis, i.p.v. een omschrijving; bijv. rijwiel = ‘fiets’
synoniemrelatie: verband tussen woorden op grond van gelijke betekenis
syntactisch: m.b.t. de opbouw en structuur van zinsdelen en zinnen
syntaxis: (bestudering van de) opbouw en structuur van zinsdelen en zinnen; zinsleer
taalkundig verrijkt: voorzien van taalkundige informatie, zoals woordsoort en lemma, d.m.v. codes of tags
taalkundige verrijking: het toevoegen van taalkundige informatie aan (woorden in) een tekst, bijv. informatie over de woordsoort, meestal d.m.v. bepaalde codes of tags
taalmaterialen: bronnen, data en tools voor taalkundig onderzoek en taal- en spraaktechnologie, zoals tekstverzamelingen, woordenlijsten, wetenschappelijke woordenboeken, spraakcorpora en taal- en spraaktechnologische software
tag: digitaal label met taalkundige informatie
taggen: van digitale labels met taalkundige informatie (bijv. woordsoort of lemma) voorzien
tagging: het voorzien van teksten met digitale labels met taalkundige informatie (bijv. woordsoort of lemma)
terminologie: studie naar (het gebruik van) vakspecialistische woorden of woordgroepen
token: in een tekst aangetroffen combinatie van karakters die een eenheid vormen
tool: computerprogramma dat gebruikt wordt om digitale bestanden te bewerken of te analyseren
toponymisch: m.b.t. plaatsnamen en andere eigennamen van geografische eenheden
transcriberen: een handgeschreven of gedrukte tekst, een tekstafbeelding of een geluidsfragment naar een digitaal (tekst)bestand overbrengen, bijv. door overtypen
transcriptie: het overbrengen van een handgeschreven of gedrukte tekst, een tekstafbeelding of een geluidsfragment naar een digitaal (tekst)bestand, bijv. door overtypen
trefwoord: ingang (hoofdwoord) in een woordenboek
valentie-informatie: geheel van verbindingsmogelijkheden van een bepaald woord om met dat woord afleidingen en samenstellingen te vormen en om met andere woorden woordgroepen en zinnen te vormen
verrijken: van extra (taalkundige) informatie voorzien
verrijking: het digitaal voorzien van extra (taalkundige) informatie
volksetymologie: verandering van een onbegrepen woord onder invloed van vermeende etymologische verwantschap met een bekend woord
volksetymologisch: door volksetymologie tot stand gekomen
woordenboekapplicatie: online versie van een woordenboek
woordindices: registers waarin aangetroffen woorden worden opgetekend
woordsoort: soort of categorie waartoe een woord behoort, bijv. zelfstandig naamwoord, bijvoeglijk naamwoord of werkwoord