Gezocht op tag(s): Niet-commercieel

Names Corpus

Gemaakt op maandag 25 mei 2020   »Taalmaterialen

Een corpus van Nederlandse voor- en achternamen zoals gevonden in 19de eeuwse geboorte-, huwelijks- en overlijdensakten. De naamvarianten zijn gekoppeld aan een standaardvorm.

A corpus of Dutch given names and surnames as present in 19th centuary certificates for birth, marriage and decease. The name variants have been assigned to a standard form.

Details

BLISS Spoken Dialogue Dataset

Gemaakt op vrijdag 27 maart 2020   »Taalmaterialen

Nederlandse spraakopnames van deelnemers die spreken met het BLISS (v1) dialoog systeem over alledaagse bezigheden en activiteiten waar ze plezier aan beleven. De data bevat 55 opnames met een duur van 2 minuten en 34 seconden..

Details

Boarnsterhim Corpus (BHC)

Gemaakt op vrijdag 27 maart 2020   »Taalmaterialen

The Boarnsterhim Corpus consists of 250 hours of speech in both West Frisian and Dutch by the same sample of bilingual speakers. The corpus contains original recordings from 1982-1984 and a replication study recorded 35 years later. The data collection spans speech of four generations, and combines panel and trend data.

Details

Medische Termen Belgisch-Nederlands (MedTermBN)

Gemaakt op dinsdag 04 februari 2020   »Taalmaterialen

Een lijst met medische begrippen waarvoor in België en Nederland afwijkende termen worden gebruikt.

A list with medical notions for which in Belgium and the Netherlands differing terms are used.

Details

Diachroon seMantisch lexicon van de Nederlandse Taal - DiaMaNT

Gemaakt op maandag 28 oktober 2019   »Taalmaterialen

Een interface voor het doorzoeken van het Diachroon seMantisch lexicon van de Nederlandse Taal (DiaMaNT). Dat is een computationeel semantisch lexicon waarin (historische) woordvormen en concepten zijn verbonden.

Details

Federated Search Lexica

Gemaakt op maandag 28 oktober 2019   »Taalmaterialen

Greedy Extraction of Trees for Emperical Linguistics - GrETEL

Gemaakt op maandag 28 oktober 2019   »Taalmaterialen

Een gebruiksvriendelijke interface voor het doorzoeken van syntactisch geannoteerde corpora of Treebanks.

Details

RND Woordenlijsten

Gemaakt op maandag 28 oktober 2019   »Taalmaterialen

Fonetische transcripties van dialectwoorden verzameld in Nederland en België. Oorspronkelijk gepubliceerd in de "Reeks Nederlandse Dialectatlassen".

Details

GiGaNT-Molex

Gemaakt op woensdag 29 mei 2019   »Taalmaterialen

Het GiGaNT-Molex lexicon bevat Nederlands materiaal uit Nederland, Vlaanderen, de Antillen en Suriname afkomstig uit hedendaags corpusmateriaal van het Instituut voor de Nederlandse Taal (INT). Alle lemmata en paradigmata zijn handmatig nagekeken en conform de officiële spelling.

The GiGaNT-Molex lexicon contains Dutch language material from the Netherlands, Flanders, the Netherlands Antilles, and Surinam coming from corpus material of the Dutch Language Institute (Instituut voor de Nederlandse Taal - INT). It has been manually verified and it follows the official Dutch spelling.

Details

CHN N-grams

Gemaakt op vrijdag 10 mei 2019   »Taalmaterialen

N-grammen (lengten één, twee en drie) met frequenties uit het Corpus Hedendaags Nederlands.

N-grams (lengths one, two, and three) and their frequencies from the Corpus Contemporary Dutch.

Details

Philostei

Gemaakt op woensdag 21 november 2018   »Grafzerk

Philostei TICCLing Philosophy

Een open source, web-gebaseerd, gebruiksvriendelijke workflow van digitale afbeeldingen van naar TEI, die het mogelijk maken een filosofisch corpus op te bouwen. Deze workflow gebruikt een combinatie van een OCRopus / Tesseract webservice voor de analyse van de tekst-layout en OCR (Optical Character Recognition) en een meertalige versie van TICCL beschikbaar als webservice TICCLops. Een opvolger is PICCL. Zie ook: http://portal.clarin.nl/node/4190.

Status: Vervallen

TICLLOPS

Gemaakt op woensdag 21 november 2018   »Grafzerk

TICCLOPS Text-Induced Corpus Clean-up online processing system

TICCL (Text Induced Corpus Clean-up) is een systeem dat dient om een corpus te doorzoeken naar varianten van bestaande woorden en kan zo dienen om spelling- en OCR-fouten te ontdekken. Deze tool is inmiddels niet meer beschikbaar. Een opvolger is PICCL. Zie ook: https://portal.clarin.nl/node/1914.

Status: Vervallen

IMDI-server

Gemaakt op dinsdag 20 november 2018   »Grafzerk

IMDI-server

De IMDI-Server, waarop de data van het Corpus Gesproken Nederlands (CGN) beschikbaar waren gesteld, is opgeheven. Het CGN is te vinden in de Taalmaterialen van het INT

Status: Vervallen

Moroccorp

Gemaakt op donderdag 18 oktober 2018   »Taalmaterialen

Moroccorp is een corpus van communicatie via internet-chat tussen Marokkaans-Nederlandse taalgebruikers, bestaande uit tien miljoen woorden.

Details

Wablieft-corpus

Gemaakt op donderdag 18 oktober 2018   »Grafzerk

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.

Details

Wablieft-corpus

Gemaakt op donderdag 18 oktober 2018   »Taalmaterialen

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.

Details

Brieven als Buit - Gouden Standaard

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

De circa 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het Brieven als Buit-programma, geleid door prof. dr. M.J. van der Wal.

Letters as Loot – Gold Standard contains the 1000 or so source files from the Letters as Loot program (directed by Prof. Dr. M.J. van der Wal), each enriched with main part-of-speech and modern lemma.

Details

INT Historische Woordenlijst

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

Twee lijsten met elk ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970.

Two lists, each consisting of approx. 500,000 historical word forms, to be used for OCR and OCR post-correction, for the period of 1550 – 1970, approximately.

Details

INT IMPACT NE-lexicon

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

Lexicon voor het Nederlands, met historische namen en varianten uit de periode 1750-1945.

Lexicon for Dutch, featuring historical names and variants from the period between 1750 and 1945.

Details

Etymologiebank

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

De Etymologiebank biedt alle belangrijke etymologische publicaties van het Nederlands op woordniveau aan op één centraal punt (data geleverd door het INT).

Etymologiebank presents all important etymological publications on Dutch words in one place (data have been supplied by the Dutch Language Institute).

Ga naar website

Op deze website maken wij gebruik van cookies.