Display:

Het Corpus Pathologische en Normale Spraak (COPAS) bevat opnames van de DIA (Dutch Intelligibility Assessment). Daarnaast bevat het ook voorgelezen tekstpassages, afzonderlijke zinnen en spontane spraak van een deel van de sprekers. Het corpus bevat opnames van bijna 200 Vlaamse pathologische sprekers (= sprekers met een hoorbare stoornis) en 122 Vlaamse controlesprekers. De nodige annotaties werden voorzien.

Productdetails

Jaar: 2011
Financier: Vlaamse overheid (agentschap voor Innovatie door Wetenschap en Technologie (IWT))
Eigenaar: Universiteit Antwerpen, Universiteit Gent
Dataformaat: Spraakbestanden (wav), Annotaties (TextGrid)
Talen: (Vlaams-)Nederlands
Refereren: Corpus Pathologische en Normale Spraak (COPAS) (Version 1.0.1) (2011) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n3
Documentatie: Handleiding
Project: SPACE (SPeech Algorithms for Clinical and Educational applications)
Projectwebsite: http://www.esat.kuleuven.be/psi/spraak/projects/SPACE/

General phonemic pronunciations for frequently occurring words in Setswana. Dictionaries were developed to be practically usable for speech technology systems, rather than phonetically accurate. Audio samples of all phonemes included. A letter-to-sound rule set for predicting the pronunciations of generic words included.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Aantal uren spraak: Approx. 65,000 words
Dataformaat: Speech
Talen: Setswana
Documentation: 1) M Davel and O Martirosian, "Pronunciation dictionary development in resource-scarce environments", In Proceedings of Interspeech, Brighton, UK, September 2009
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

Contains training and testing data for genre classification for isiNdebele.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Trifonius
Annotaties: UTF8 , Running text
Dataformaat: text
Talen: isiNdebele
Documentatie: Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012)
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

Het Referentiebestand Nederlands is een lexicon met ongeveer 50.000 trefwoorden en 90.000 vaste en vrije verbindingen.

Productdetails

Jaar: 2014
Opdrachtgever: NTU-CLVV
Eigenaar: Taalunie
Dataformaat: Accessbestand
Talen: Nederlands
Refereren: Referentiebestand Nederlands - RBN (Version 2.0.1) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n2
Documentatie: RBN-documentatie
Demo: RBN Demo
Toepassing: Referentiemateriaal, automatische taalverwerking (tagging en lemmatisering)

Het SoNaR Klein-corpus Commercieel is een tekstcorpus dat ongeveer 825.000 woorden tekst bevat die voorzien werden van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie, sematische rollen en de annotatie van spatiële en temporele relaties. Alle annotaties werden manueel geverifieerd.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2015
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Talen: Nederlands
Refereren: SoNaR Klein-corpus Commercieel (Version 1.2.1) (2015) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-m9
Documentatie: Documentatie, verschillende SoNaR-corpora
Project: SoNaR: STEVIN Nederlandstalig Referentiecorpus
Projectwebsite: http://lands.let.ru.nl/projects/SoNaR

Op deze website maken wij gebruik van cookies.