Gezocht op tag(s): Lemma's

Wablieft-corpus

Gemaakt op donderdag 18 oktober 2018   »Taalmaterialen

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.

Details

Philosophical Integrator of Computational and Corpus Libraries (PICCL)

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

PICCL biedt een workflow aan voor het samenstellen van corpora waarbij een aantal bestaande tools zijn samengevoegd. Het belangrijkste onderdeel van PICCL is TICCL, een systeem voor het opschonen van tekst gebruikmakend van spellingcorrectie en het nabewerken van OCR (normalisering van spellingvarianten etc.)

Ga naar website (alleen toegankelijk via een CLARIN-login).

PICCL offers a workflow for corpus building and builds on a variety of tools. The primary component of PICCL is TICCL, a Text-induced Corpus Clean-up system, which performs spelling correction and OCR post-correction (normalisation of spelling variants etc).

Go to website (only accessible with a CLARIN login)

Cornetto-LMF

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Lexicale database voor het Nederlands met semantische relaties en combinatorische informatie. Alleen toegankelijk met een CLARIN-account.

Lexical database of Dutch, providing semantic relationships and combinatorial information. Only accessible with a CLARIN account.

Ga naar website

OpenSoNaR

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Online zoeksysteem voor het SoNaR-corpus, een tekstverzameling van hedendaags geschreven Nederlands dat uit meer dan 500 miljoen woorden bestaat. Het SoNaR-corpus is ook als download beschikbaar onder 'Details'.

Online search engine for the SoNaR Corpus, a text collection of contemporary written Dutch containing over 500 million words. The SoNaR corpus is also available as a download (see 'Details').

Details / Ga naar website

Brieven als buit

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Taalkundig verrijkte 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden en hun families en geliefden aan het thuisfront.

Linguistically enriched letters ('Letters as Loot') from the 17th and 18th century, exchanged between Dutch people (often seamen) in far-off countries and their families and loved ones back home.

Ga naar website

WebCelex

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Interface waarmee de CELEX-lexicaledatabases van het Duits, Engels, Nederlands kunnen worden geraadpleegd. Voor iedere taal zijn de lemma's aangevuld met orthografische, fonologische, morfologische en syntactische informatie en frequentiegegevens.

Interface through which the CELEX lexical databases of German, English and Dutch can be consulted. For each language, the lemmas have been enriched with orthographical, phonological, morphological and syntactic information, as well as linguistic frequency data.

Ga naar website

CombiLex Commercieel

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie.

Details

JASMIN-spraakcorpus Commercieel

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Een verzameling van circa 115 uur Nederlandse spraak van jongeren, anderstaligen en senioren, bestaande uit voorgelezen tekst en mens-machinedialogen.

Details

BasiScript-corpus

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Details

BasiScript-corpus Commercieel

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Details

BasiScript-lexicon

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Het BasiScript-lexicon is afgeleid van dat corpus.

Details

BasiScript-lexicon Commercieel

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Het BasiScript-lexicon is afgeleid van dat corpus.

Details

Afrikaans Custom Dictionary for Government Domain

Gemaakt op maandag 30 november -0001   »Taalmaterialen

This language resource contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of the language.

Details

Afrikaans Genre Classification Corpus

Gemaakt op maandag 30 november -0001   »Taalmaterialen

This language resource contains training and testing data for genre classification for Afrikaans.

Details

Algemeen Nederlands Woordenboek (ANW)

Gemaakt op maandag 30 november -0001   »Taalmaterialen

Een corpusgebaseerd, elektronisch woordenboek van het eigentijdse Nederlands in Nederland en Vlaanderen.

A corpus-based electronic dictionary describing the contemporary Dutch language as used in the Netherlands and Flanders.

Ga naar website

Autshumato English-Afrikaans Parallel Corpora

Gemaakt op maandag 30 november -0001   »Taalmaterialen

Autshumato English-Sesotho sa Leboa Parallel Corpora

Gemaakt op maandag 30 november -0001   »Taalmaterialen

Autshumato Sesotho sa Leboa-English Translation Memory

Gemaakt op maandag 30 november -0001   »Taalmaterialen

Translation memory from Sesotho sa Leboa to English (EN-GB), in the government domain for use in the Autshumato ITE application.

Details

CombiLex

Gemaakt op maandag 30 november -0001   »Taalmaterialen

CombiLex is een lijst van lemma's en woordvormen zonder toegevoegde taalkundige informatie.

Details

D-TUNA-corpus

Gemaakt op maandag 30 november -0001   »Taalmaterialen

Op deze website maken wij gebruik van cookies.