Gezocht op tag(s): Orthografie

Philostei

Gemaakt op woensdag 21 november 2018   »Grafzerk

Philostei TICCLing Philosophy

Een open source, web-gebaseerd, gebruiksvriendelijke workflow van digitale afbeeldingen van naar TEI, die het mogelijk maken een filosofisch corpus op te bouwen. Deze workflow gebruikt een combinatie van een OCRopus / Tesseract webservice voor de analyse van de tekst-layout en OCR (Optical Character Recognition) en een meertalige versie van TICCL beschikbaar als webservice TICCLops. Een opvolger is PICCL. Zie ook: http://portal.clarin.nl/node/4190.

Status: Vervallen

TICLLOPS

Gemaakt op woensdag 21 november 2018   »Grafzerk

TICCLOPS Text-Induced Corpus Clean-up online processing system

TICCL (Text Induced Corpus Clean-up) is een systeem dat dient om een corpus te doorzoeken naar varianten van bestaande woorden en kan zo dienen om spelling- en OCR-fouten te ontdekken. Deze tool is inmiddels niet meer beschikbaar. Een opvolger is PICCL. Zie ook: https://portal.clarin.nl/node/1914.

Status: Vervallen

Wablieft-corpus

Gemaakt op donderdag 18 oktober 2018   »Taalmaterialen

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.

Details

Taalportaal

Gemaakt op donderdag 26 april 2018   »Taalmaterialen

Taalportaal is een uitgebreide grammatica van het Nederlands, Fries en Afrikaans beschreven in het Engels. Het portaal bevat een lijst van taalkundige termen en een taalkundige bibliografie. Taalportaal wordt regelmatig geüpdatet.

Ga naar website

Brieven als Buit - Gouden Standaard

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

De circa 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het Brieven als Buit-programma, geleid door prof. dr. M.J. van der Wal.

Letters as Loot – Gold Standard contains the 1000 or so source files from the Letters as Loot program (directed by Prof. Dr. M.J. van der Wal), each enriched with main part-of-speech and modern lemma.

Details

INT Historische Woordenlijst

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

Twee lijsten met elk ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970.

Two lists, each consisting of approx. 500,000 historical word forms, to be used for OCR and OCR post-correction, for the period of 1550 – 1970, approximately.

Details

INT IMPACT NE Lexicon

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

Lexicon voor het Nederlands, met historische namen en varianten uit de periode 1750-1945.

Lexicon for Dutch, featuring historical names and variants from the period between 1750 and 1945.

Details

Hulk / Keurmerk Spelling

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

Hulk / Keurmerk Spelling: keurmerk voor producten die de regels en principes van de officiële spelling van de Nederlandse Taalunie volgen.

Certification mark for products written in compliance with the official spelling rules and principles formulated by the Dutch Language Union.

Ga naar website

Philosophical Integrator of Computational and Corpus Libraries (PICCL)

Gemaakt op woensdag 18 april 2018   »Taalmaterialen

PICCL biedt een workflow aan voor het samenstellen van corpora waarbij een aantal bestaande tools zijn samengevoegd. Het belangrijkste onderdeel van PICCL is TICCL, een systeem voor het opschonen van tekst gebruikmakend van spellingcorrectie en het nabewerken van OCR (normalisering van spellingvarianten etc.)

Ga naar website (alleen toegankelijk via een CLARIN-login).

PICCL offers a workflow for corpus building and builds on a variety of tools. The primary component of PICCL is TICCL, a Text-induced Corpus Clean-up system, which performs spelling correction and OCR post-correction (normalisation of spelling variants etc).

Go to website (only accessible with a CLARIN login)

OpenSoNaR

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Online zoeksysteem voor het SoNaR-corpus, een tekstverzameling van hedendaags geschreven Nederlands dat uit meer dan 500 miljoen woorden bestaat. Het SoNaR-corpus is ook als download beschikbaar onder 'Details'.

Online search engine for the SoNaR Corpus, a text collection of contemporary written Dutch containing over 500 million words. The SoNaR corpus is also available as a download (see 'Details').

Details / Ga naar website

WebCelex

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Interface waarmee de CELEX-lexicaledatabases van het Duits, Engels, Nederlands kunnen worden geraadpleegd. Voor iedere taal zijn de lemma's aangevuld met orthografische, fonologische, morfologische en syntactische informatie en frequentiegegevens.

Interface through which the CELEX lexical databases of German, English and Dutch can be consulted. For each language, the lemmas have been enriched with orthographical, phonological, morphological and syntactic information, as well as linguistic frequency data.

Ga naar website

Vertaalwoordenschat

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Applicatie voor tweetalige woordenboeken met Nederlands als bron- of doeltaal. Momenteel zijn de taalparen Nederlands-Nieuwgrieks en Nederlands-Portugees gratis beschikbaar.

Application for bilingual dictionaries with Dutch as a source language or target language. Dutch - Modern Greek and Dutch - Portuguese are the first language combinations available for free.

Vertaalwoordenschat

AUTONOMATA-namencorpus Commercieel

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Een database van in totaal circa 5000 voorgelezen voornamen, achternamen, straatnamen, plaatsnamen en controlewoorden.

Details

JASMIN-spraakcorpus Commercieel

Gemaakt op dinsdag 13 maart 2018   »Taalmaterialen

Een verzameling van circa 115 uur Nederlandse spraak van jongeren, anderstaligen en senioren, bestaande uit voorgelezen tekst en mens-machinedialogen.

Details

BasiScript-corpus

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Details

BasiScript-corpus Commercieel

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Details

BasiScript-lexicon

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Het BasiScript-lexicon is afgeleid van dat corpus.

Details

BasiScript-lexicon Commercieel

Gemaakt op woensdag 28 februari 2018   »Taalmaterialen

Het BasiScript-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd.

Het BasiScript-lexicon is afgeleid van dat corpus.

Details

Op deze website maken wij gebruik van cookies.