Alle taalmaterialen

Deze catalogus bevat bronnen, data en tools voor taalkundig onderzoek en taal- en spraaktechnologie (TST) binnen het Nederlandse taalgebied: o.a. tekstverzamelingen, woordenlijsten, wetenschappelijke woordenboeken, spraakcorpora en taal- en spraaktechnologische software.

  • Afrikaans Custom Dictionary for Government Domain

    This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of the language. Details

  • Afrikaans Genre Classification Corpus

    This language resource contains training and testing data for genre classification for Afrikaans. Details

  • Algemeen Nederlands Woordenboek (ANW)

    Een corpusgebaseerd, elektronisch woordenboek van het eigentijdse Nederlands in Nederland en Vlaanderen. A corpus-based electronic dictionary describing the contemporary Dutch language as used in the Netherlands and Flanders....

  • Attestation Tool

    Multifunctionele, downloadbare gebruikersinterface voor de productie van computationele lexica, inclusief gouden standaard voor named entity tagging. Deze tool wordt gedistribueerd via GitHub. A multifunctional, downloadable user interface for the production of computational lexica, including a gold...

  • AUTONOMATA-namencorpus

    Een database van in totaal circa 5000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden. Details

  • AUTONOMATA-namencorpus Commercieel

    Een database van in totaal circa 5000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden. Details

  • AUTONOMATA-POI-corpus

    Het corpus is een database van 800 voorgelezen points of interest (POIs) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Details

  • AUTONOMATA-POI-demo

    Een demo van een spraakherkenner voor POIs (points of interest). Deze demo herkent overnachtingsadressen en eetgelegenheden in enkele grote steden (o.a. Amsterdam, Antwerpen, Gent, Rotterdam). Details

  • AUTONOMATA-transcriptietoolset

    De AUTONOMATA-transcriptietoolset bestaat uit een transcriptietool en learning tools, waarmee men woordenlijsten kan verrijken met nauwkeurige uitspraakinformatie. Details

  • Autosearch

    Een tool om geannoteerde teksten te uploaden (voorzien van lemma's en woordsoortinformatie in TEI- of FoLiA-formaat), één of meerdere corpora te definiëren en deze te doorzoeken. Alleen toegankelijk met een CLARIN-account. A tool to upload corpora annotated with part of speech, lemma and word form...

  • Autshumato Afrikaans-English Translation Memory

    Translation memory from Afrikaans to English (EN-GB), in the government domain for use in the Autshumato ITE application. Details

  • Autshumato English-Afrikaans Parallel Corpora

    English and Afrikaans parallel corpora aligned on sentence level. Details

  • Autshumato English-Afrikaans Translation Memory

    Translation memory from English (EN-GB) to Afrikaans, in the government domain for use in the Autshumato ITE application. Details

  • Autshumato English-isiZulu Parallel Corpora

    English and isiZulu parallel corpora aligned on sentence level. Details

  • Autshumato English-isiZulu Translation Memory

    Translation memory from English (EN-GB) to isiZulu, in the government domain for use in the Autshumato ITE application. Details

  • Autshumato English-Sesotho sa Leboa Parallel Corpora

    English and Sesotho sa Leboa (Sepedi) parallel corpora aligned on sentence level. Details

  • Autshumato isiZulu-English Translation Memory

    Translation memory from IsiZulu to English (EN-GB), in the government domain for use in the Autshumato ITE application. Details

  • Autshumato Sesotho sa Leboa-English Translation Memory

    Translation memory from Sesotho sa Leboa to English (EN-GB), in the government domain for use in the Autshumato ITE application. Details

  • BasiLex-corpus

    Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Details

  • BasiLex-corpus Commercieel

    Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Details

  • BasiLex-lexicon

    Het BasiLex-lexicon bevat alle lemma's uit het BasiLex-corpus met daaraan toegevoegd extra informatie. Details

  • BasiLex-lexicon Commercieel

    Het BasiLex-lexicon bevat alle lemma's uit het BasiLex-corpus met daaraan toegevoegd extra informatie. Details

  • BasiScript-corpus

    Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd. Details

  • BasiScript-corpus Commercieel

    Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd. Details

  • BasiScript-lexicon

    Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd. Het BasiScript-lexicon is afgeleid van dat corpus. Details

  • BasiScript-lexicon Commercieel

    Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven door kinderen in de basisschoolleeftijd. Het BasiScript-lexicon is afgeleid van dat corpus. Details

  • Blacklab

    Corpuszoeksysteem op basis van Apache Lucene. Deze tool wordt gedistribueerd via GitHub. A corpus retrieval engine based on Apache Lucene. This tool is distributed through Github. Details

  • Blacklab Frontend

    Een uitgebreide interface voor de Blacklab corpus-zoekmachine. A feature-rich corpus search interface for BlackLab corpus query engine. Details

  • Brieven als Buit

    Taalkundig verrijkte 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden en hun families en geliefden aan het thuisfront. Linguistically enriched letters ('Letters as Loot') from the 17th and 18th century, exchanged between Dutch people (often seamen) in far-off countries and their...

  • Brieven als Buit - Gouden Standaard

    De circa 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het Brieven als Buit-programma, geleid door prof. dr. M.J. van der Wal. Letters as Loot – Gold Standard contains the 1000 or so source files from the Letters as Loot program (directed by Prof. Dr. M.J. van der Wal), each...

  • Cd-rom Middelnederlands

    De Cd-rom Middelnederlands (1998) bevat het Middelnederlands Woordenboek, de teksten van het Corpus Gysseling en een collectie van ruim 300 rijm- en prozateksten. The CD-ROM Middle Dutch (1998) contains the Middle Dutch Dictionary, the texts of the Gysseling Corpus, and a collection of over 300...

  • CGN-annotaties

    De CGN-annotaties bevatten het volledig geannoteerde corpus in getranscribeerde vorm. Details

  • CGN-annotaties Commercieel

    De CGN-annotaties bevatten het volledig geannoteerde corpus in getranscribeerde vorm. Details

  • Children's Oral Reading Corpus (CHOREC)

    Een verzameling van 130 uur voorgelezen kinderspraak. Details

  • CHN n-grams

    N-grammen (lengten één, twee en drie) met frequenties uit het Corpus Hedendaags Nederlands. N-grams (lengths one, two, and three) and their frequencies from the Corpus Contemporary Dutch. Details

  • CHN n-grams Commercieel

    N-grammen (lengten één, twee en drie) met frequenties uit het Corpus Hedendaags Nederlands. N-grams (lengths one, two, and three) and their frequencies from the Corpus Contemporary Dutch. Details

  • Cobalt

    Applicatie om een verzameling tekstbestanden in te laden en taalkundig te annoteren. Deze applicatie wordt gedistribueerd via GitHub. Application for importing and linguistically annotating a collection of text files. This application is distributed through Github....

  • CombiLex

    CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie. Details

  • CombiLex Commercieel

    CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie. Details

  • COREA-coreferentiecorpus

    Het corpus bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. Details

  • COREA-coreferentiecorpus Commercieel

    Het corpus bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. Details

  • COREA-coreferentieservice

    Een systeem dat automatisch coreferentiële relaties tussen nominale constituenten in teksten op kan lossen. Details

  • Cornetto-LMF

    Lexicale database voor het Nederlands met semantische relaties en combinatorische informatie. Alleen toegankelijk met een CLARIN-account. Lexical database of Dutch, providing semantic relationships and combinatorial information. Only accessible with a CLARIN account. Ga naar...

  • Corpus Gesproken Nederlands (CGN)

    Een verzameling van ongeveer 900 uur gesproken Standaardnederlands afkomstig van Vlamingen en Nederlanders. Details

  • Corpus Gesproken Nederlands (CGN) Commercieel

    Een verzameling van ongeveer 900 uur gesproken Standaardnederlands afkomstig van Vlamingen en Nederlanders. Details

  • Corpus Gysseling

    Een verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek. A collection of all 13th-century texts that served as source material for the Early Middle Dutch Dictionary....

  • Corpus Hedendaags Nederlands (CHN)

    Een tekstverzameling van meer dan 800.000 teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal (1814-2013). Het corpus is een samenvoeging van de oude 5, 27 en 38 Miljoen Woorden Corpora en het PAROLE-corpus, aangevuld met krantenmateriaal. Alleen toegankelijk met een...

  • Corpus Middelnederlands

    Een verzameling van ca. 350 Middelnederlandse literaire teksten uit de periode 1250-1500, in TEI gecodeerd (oorspronkelijk gepubliceerd op de cd-rom Middelnederlands). A collection of 350 Middle Dutch literary texts from the period between 1250 and 1500, encoded in TEI (originally published on the...

  • Corpus Oudnederlands

    Een verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200. A collection of all the surviving lexical material from the period between 475 and 1200. Details

  • Corpus Pathologische en Normale Spraak (COPAS)

    Een verzameling opnames van bijna 200 sprekers met een hoorbare spraakstoornis en van 122 controlesprekers. Details

  • D-TUNA-corpus

    Het D-TUNA-corpus bestaat uit 2400 geschreven en (getranscribeerde) gesproken referentiële expressies. Details

  • DAESO-corpus: Parallelle Nederlandstalige monolinguale treebank

    Een parallelle monolinguale treebank voor het Nederlands. Details

  • DAESO-corpus: Parallelle Nederlandstalige monolinguale treebank Commercieel

    Een parallelle monolinguale treebank voor het Nederlands. Details

  • DuELME

    Een lexicon met ruim 5000 Nederlandstalige meerwoordexpressies. A lexicon with over 5000 Dutch multiword expressions. Details

  • DuELME Commercieel

    Een lexicon met ruim 5000 Nederlandstalige meerwoordexpressies. A lexicon with over 5000 Dutch multiword expressions. Details

  • DuOMAn-subjectivitylexicon

    Een verzameling van ongeveer 9000 woorden waarvoor aangegeven werd of ze een negatieve, neutrale of positieve gevoelswaarde hebben. Details

  • Dupira

    Parser voor het Nederlands voor toepassingen in information retrieval Details

  • Dutch Parallel Corpus (DPC)

    Een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Details

  • Dutch Parallel Corpus (DPC) Commercieel

    Een parallel corpus van 8,77 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Details

  • e-Lex

    Lexicon met ruim 200.000 lemma's en ruim 640.000 woordvormen voorzien van o.a. POS-tag, complementatiepatroon, semantisch type en uitspraakinformatie. A lexical database consisting of over 200,000 entries and over 640,000 word forms, enriched with part of speech, complementation type, semantic type,...

  • e-Lex Commercieel

    Lexicon met ruim 200.000 lemma's en ruim 640.000 woordvormen voorzien van o.a. POS-tag, complementatiepatroon, semantisch type en uitspraakinformatie. A lexical database consisting of over 200,000 entries and over 640,000 word forms, enriched with part of speech, complementation type, semantic...

  • Eindhoven-corpus

    Een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Details

  • Etymologiebank

    De Etymologiebank biedt alle belangrijke etymologische publicaties van het Nederlands op woordniveau aan op één centraal punt (data geleverd door het INT). Etymologiebank presents all important etymological publications on Dutch words in one place (data have been supplied by the Dutch Language...

  • Etymologisch Woordenboek van het Nederlands (EWN)

    Een wetenschappelijk etymologisch woordenboek voor het moderne bovenregionale Nederlands. A scientific etymological dictionary of modern, superregional Dutch. Ga naar website

  • Frequentielijsten Corpora

    De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het CGN, het ANW-corpus, het Eindhoven-corpus, het D-Coi-corpus en het SoNaR-corpus. The 5000 most frequent words from the Millions Corpora, the PAROLE 2004 Corpus, the Corpus of Spoken Dutch, the ANW Corpus, the...

  • Frog

    Een tokenizer, tagger, lemmatizer, morphological segmenter, shallow parser, named entity recognizer, en dependency parser in één. Ga naar website

  • GiGaNT-Molex

    Het GiGaNT-Molex lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaags corpusmateriaal van het Instituut voor de Nederlandse Taal (INT). Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling. The GiGaNT-Molex...

  • GiGaNT-Molex Commercieel

    Het GiGaNT-Molex lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaags corpusmateriaal van het Instituut voor de Nederlandse Taal (INT). Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling. he GiGaNT-Molex...

  • Hulk / Keurmerk Spelling

    Hulk / Keurmerk Spelling: keurmerk voor producten die de regels en principes van de officiële spelling van de Nederlandse Taalunie volgen. Certification mark for products written in compliance with the official spelling rules and principles formulated by the Dutch Language Union. Ga naar...

  • IFA-corpus

    Een database voor fonetisch onderzoek die bestaat uit Nederlandse spraakdata van 8 personen; 4 mannelijk en 4 vrouwelijk. Details

  • IFA-dialoog-videocorpus

    Video- en geluidsopnamen van spontane dialogen tussen proefpersonen. Details

  • INL Labs

    Webservice voor het taggen/lemmatiseren van (historische) teksten met o.a. een tagger voor eigennamen (named entities) en een tagger speciaal getraind voor historisch materiaal. De laatste geeft de moderne woordvormen weer en maakt een koppeling naar betekenisomschrijvingen. Web service for...

  • INT Historische Woordenlijst

    Twee lijsten met elk ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970. Two lists, each consisting of approx. 500,000 historical word forms, to be used for OCR and OCR post-correction, for the period of 1550 – 1970, approximately....

  • INT IMPACT NE Lexicon

    Lexicon voor het Nederlands, met historische namen en varianten uit de periode 1750-1945. Lexicon for Dutch, featuring historical names and variants from the period between 1750 and 1945. Details

  • isiNdebele Custom Dictionary for Government Domain

    This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of isiNdebele. Details

  • isiNdebele Genre Classification Corpus

    Contains training and testing data for genre classification for isiNdebele. Details

  • isiXhosa Custom Dictionary for Government Domain

    This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of isiXhosa. Details

  • isiXhosa Genre Classification Corpus

    Contains training and testing data for Genre Classification for isiXhosa. Details

  • isiZulu Custom Dictionary for Government Domain

    This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of isiZulu. Details

  • isiZulu Genre Classification Corpus

    Contains training and testing data for Genre Classification for isiZulu. Details

  • JASMIN-spraakcorpus

    Een verzameling van circa 115 uur Nederlandse spraak van jongeren, anderstaligen en senioren, bestaande uit voorgelezen tekst en mens-machinedialogen. Details

  • JASMIN-spraakcorpus Commercieel

    Een verzameling van circa 115 uur Nederlandse spraak van jongeren, anderstaligen en senioren, bestaande uit voorgelezen tekst en mens-machinedialogen. Details

  • Lassy Groot-corpus

    Een corpus bestaande uit circa 700 miljoen woorden dat automatisch voorzien werd van syntactische annotaties. Details

  • Lassy Groot-corpus Commercieel

    Een corpus bestaande uit circa 476 miljoen woorden dat automatisch voorzien werd van syntactische annotaties. Details

  • Lassy Klein-corpus

    Een syntactisch geannoteerd corpus bestaande uit een miljoen woorden. Details

  • Lassy Klein-corpus Commercieel

    Een syntactisch geannoteerd corpus bestaande uit 772.000 woorden. Details

  • Lwazi Afrikaans ASR corpus

    Audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi Afrikaans Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in Afrikaans. Details

  • Lwazi English ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi English Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in English. Details

  • Lwazi isiNdebele ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi isiNdebele Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in isiNdebele. Details

  • Lwazi isiXhosa ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi isiXhosa Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in isiXhosa. Details

  • Lwazi isiZulu ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi isiZulu Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in isiZulu. Details

  • Lwazi Sepedi ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi Sepedi Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in Sepedi. Details

  • Lwazi Sesotho ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi Sesotho Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in Sesotho. Details

  • Lwazi Setswana ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi Setswana Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in Setswana. Details

  • Lwazi Siswati ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi Siswati Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in Siswati. Details

  • Lwazi Tshivenda ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi Tshivenda Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in Tshivenda. Details

  • Lwazi Xitsonga ASR corpus

    Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems. Details

  • Lwazi Xitsonga Pronunciation Dictionary

    General phonemic pronunciations for frequently occurring words in Xitsonga. Details

  • Meertalige Ondertiteldata 2BDutch

    De ondertiteldata behorend bij de Nederlandstalige video’s op de website www.2BDutch.nl, vormen het product Meertalige Ondertiteldata 2BDutch. Details

  • Memory Based Morphological Parser (MBMP)

    Een geheugengebaseerde morfologische parser voor de programmeertaal Python. Deze tool wordt gedistribueerd via GitHub. A memory-based morphological parser for the programming language Python. This tool is distributed through Github....

  • Middelnederlandsch Woordenboek (MNW)

    Beschrijft de Nederlandse woordenschat uit de periode ca. 1250 tot ca. 1550. Describes the vocabulary of the Dutch spoken from the thirteenth to the sixteenth century. Details

  • Moroccorp

    Moroccorp is een corpus van communicatie via internet-chat tussen Marokkaans-Nederlandse taalgebruikers, bestaande uit tien miljoen woorden. Details

  • Neologismen Online v3

    Lijst met ca. 19.000 nieuwe Nederlandse woorden en uitdrukkingen. List of ca. 19,000 new Dutch words and expressions. Details

  • Nerd

    Named entity recognizer. Alleen toegankelijk met een CLARIN-account. Named entity recognizer. Only accessible with a CLARIN account. Details

  • OMBI Arabisch-Nederlands

    Bilinguaal lexicaal bestand met als brontaal Arabisch en als doeltaal Nederlands. Details

  • OMBI Arabisch-Nederlands Commercieel

    Bilinguaal lexicaal bestand met als brontaal Arabisch en als doeltaal Nederlands. Details

  • OMBI Nederlands-Arabisch

    Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Arabisch. Details

  • OMBI Nederlands-Arabisch Commercieel

    Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Arabisch. Details

  • OMBI Nederlands-Deens

    Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Deens. Details

  • OMBI Nederlands-Deens Commercieel

    Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Deens. Details

  • OMBI Nederlands-Indonesisch

    Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Indonesisch. Details

  • OMBI Nederlands-Indonesisch Commercieel

    Bilinguaal lexicaal bestand met als brontaal Nederlands en als doeltaal Indonesisch. Details

  • Open Source Dutch Wordnet

    Open Source Dutch Wordnet is een lexicale database voor het Nederlands, die 116.992 synsets bevat. Ga naar website

  • OpenConvert

    Tool om tekst te converteren naar xml-formaat (TEI) en te voorzien van taalkundige annotaties. Alleen toegankelijk met een CLARIN-account. A tool for converting text to XML format (TEI) and annotating it with linguistic information. Only accessible with a CLARIN account....

  • OpenSoNaR

    Online zoeksysteem voor het SoNaR-corpus, een tekstverzameling van hedendaags geschreven Nederlands dat uit meer dan 500 miljoen woorden bestaat. Het SoNaR-corpus is ook als download beschikbaar als download. Zie SoNaR Corpus. Online search engine for the SoNaR Corpus, a text collection of...

  • Oudnederlands Woordenboek (ONW)

    Een wetenschappelijk woordenboek van het oudste Nederlands. A scientific dictionary of the oldest Dutch. Details

  • Paco-MT Parallelle Corpora

    Twee (bestaande) parallelle corpora voorzien van automatisch gegenereerde syntactische annotaties en node alignments. Details

  • PAROLE-lexicon

    Het PAROLE-lexicon bevat ruim 20.000 entry's, die voorzien werden van woordsoort, getal, naamval en syntactische complementatiepatronen. The PAROLE Lexicon contains over 20,000 entries, enriched with word class, number, case, and syntactic complementation patterns....

  • Philosophical Integrator of Computational and Corpus Libraries (PICCL)

    PICCL biedt een workflow aan voor het samenstellen van corpora waarbij een aantal bestaande tools zijn samengevoegd. PICCL offers a workflow for corpus building and builds on a variety of tools. Details

  • Referentiebestand Belgisch-Nederlands (RBBN)

    Een verzameling van 4000 woorden en uitdrukkingen die typisch zijn voor het Nederlands in België. Details

  • Referentiebestand Belgisch-Nederlands (RBBN) Commercieel

    Een verzameling van 4000 woorden en uitdrukkingen die typisch zijn voor het Nederlands in België. Details

  • Referentiebestand Nederlands (RBN)

    Een verzameling van ongeveer 50.000 frequente Nederlandse woorden aangevuld met taalkundige informatie. A collection of ca. 50,000 frequently used Dutch words, enriched with linguistic information. Details

  • Referentiebestand Nederlands (RBN) Commercieel

    Een verzameling van ongeveer 50.000 frequente Nederlandse woorden aangevuld met taalkundige informatie. A collection of ca. 50,000 frequently used Dutch words, enriched with linguistic information. Details

  • Sepedi Custom Dictionary for Government Domain

    Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language....

  • Sesotho Custom Dictionary for Government Domain

    Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language....

  • Sesotho Genre Classification Corpus

    Contains training and testing data for Genre Classification for Sesotho. Details

  • Sesotho sa Leboa Genre Classification Corpus

    Contains training and testing data for Genre Classification for Sesotho sa Leboa. Details

  • Setswana Custom Dictionary for Government Domain

    Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language....

  • Setswana Genre Classification Corpus

    Contains training and testing data for Genre Classification for Setswana. Details

  • Siswati Custom Dictionary for Government Domain

    Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language....

  • Siswati Genre Classification Corpus

    Contains training and testing data for Genre Classification for Siswati. Details

  • SoNaR Groot-corpus Commercieel

    Het SoNaR Groot-corpus Commercieel bevat ruim 271 miljoen woorden en het bevat (standaard) Nederlandstalige teksten van na 1954. Details

  • SoNaR Klein-corpus Commercieel

    Het SoNaR Klein-corpus Commercieel bevat ongeveer 825.000 woorden tekst die semantisch geannoteerd werden. Details

  • SoNaR Nieuwe Media-corpus

    Het SoNaR Nieuwe Media-corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR: sms'en, tweets en chatberichten. Details

  • SoNaR-corpus

    Het SoNaR-corpus bevat ruim 500 miljoen woorden en het bevat (standaard) Nederlandstalige teksten van na 1954. Details

  • SumNL-samenvattingencorpus

    Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Details

  • Taalportaal

    Taalportaal is een uitgebreide grammatica van het Nederlands, Fries en Afrikaans beschreven in het Engels. Het portaal bevat een lijst van taalkundige termen en een taalkundige bibliografie. Taalportaal wordt regelmatig geüpdatet. Ga naar...

  • Tshivenda Custom Dictionary for Government Domain

    Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language....

  • Tshivenda Genre Classification Corpus

    Contains training and testing data for Genre Classification for Tshivenda. Details

  • Vertaalwoordenschat

    Applicatie voor tweetalige woordenboeken met Nederlands als bron- of doeltaal. Momenteel zijn de taalparen Nederlands-Nieuwgrieks en Nederlands-Portugees gratis beschikbaar. Application for bilingual dictionaries with Dutch as a source language or target language. Dutch - Modern Greek and Dutch -...

  • Vroegmiddelnederlands Woordenboek (VMNW)

    Een wetenschappelijk woordenboek gebaseerd op ambtelijke bescheiden en literaire teksten uit de dertiende eeuw. A scientific dictionary based on official documents and literary texts from the thirteenth century....

  • VU-DNC-corpus

    Een diachroon Nederlands krantencorpus dat bestaat uit data van vijf kranten. Voor elk van de kranten is data uit twee jaren beschikbaar (1950/1951 en 2002). Alleen toegankelijk met een CLARIN-account. A diachronic Dutch newspaper corpus, consisting of data from five newspapers, covering 2...

  • Wablieft-corpus

    Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief....

  • WebCelex

    Interface waarmee de CELEX-lexicaledatabases van het Duits, Engels, Nederlands kunnen worden geraadpleegd. Voor iedere taal zijn de lemma's aangevuld met orthografische, fonologische, morfologische en syntactische informatie en frequentiegegevens. Interface through which the CELEX lexical...

  • Woordenboek der Friese Taal (WFT)

    Het "Wurdboek fan de Fryske taal" is een wetenschappelijk, descriptief woordenboek en bevat ongeveer 120.000 lemma's. The Dictionary of the Frisian Language is a scientific, descriptive dictionary containing ca. 120,000 entries....

  • Woordenboek der Nederlandsche Taal (WNT)

    Een historisch, wetenschappelijk, beschrijvend woordenboek van het Nederlands van 1500-1976. A scientific, historical, descriptive dictionary of the Dutch language as it was written between 1500 and 1976....

  • Xitsonga Custom Dictionary for Government Domain

    Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language....

  • Xitsonga Genre Classification Corpus

    Contains training and testing data for Genre Classification for Xitsonga. Details

Op deze website maken wij gebruik van cookies.