Display:

General phonemic pronunciations for frequently occurring words in Tshivenda. Dictionaries were developed to be practically usable for speech technology systems, rather than phonetically accurate. Audio samples of all phonemes included. A letter-to-sound rule set for predicting the pronunciations of generic words included.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Aantal uren spraak: Approx. 65,000 words
Dataformaat: Speech
Talen: Tshivenda
Documentation: 1) M Davel and O Martirosian, "Pronunciation dictionary development in resource-scarce environments", In Proceedings of Interspeech, Brighton, UK, September 2009
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

Het COREA-coreferentiecorpus (circa 150.000 woorden) bestaat uit Nederlandse teksten waarin coreferentierelaties systematisch gemarkeerd zijn. De teksten bestaan uit krantenartikelen (D-Coi), getranscribeerde spraak (CGN) en lemma's uit de Spectrum (Winkler Prins) Medische Encyclopedie.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2014
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: xml, MMAX2
Talen: Nederlands
Refereren: COREA-coreferentiecorpus Commercieel (Version 1.0.1) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-e9
Demo: Voorbeelden van gemarkeerde corpusteksten
Documentatie: LREC2008-artikel
Project: COREA
Projectwebsite: http://www.cnts.ua.ac.be/~iris/corea.html
Toepassing: Automatische tekstanalyse, automatisch samenvatten.
Website: http://corea.tst-centrale.org/

General phonemic pronunciations for frequently occurring words in English. This dictionary was developed to be practically usable for speech technology systems, rather than phonetically accurate. A letter-to-sound rule set for predicting the pronunciations of generic words is also included.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Aantal uren spraak: Approx. 65,000 words
Dataformaat:  
Talen: English
Documentation: 1) M Davel and O Martirosian, "Pronunciation dictionary development in resource-scarce environments", In Proceedings of Interspeech, Brighton, UK, September 2009
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Annotaties: Transcriptions: a) One utterance per file b) ANSI (Unicode) c) txt Audio: a) 8 KHz b) 16-bit c) 1 Channel; telephone d) wav
Aantal uren spraak: 476 min
Dataformaat: Speech
Talen: Setswana
Documentatie: Lwazi Project Final Report "Development of a telephone-based speech-driven information service for the South African Government"
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het Corpus Gesproken Nederlands, het Algemeen Nederlands Woordenboekcorpus, het Eindhoven-corpus, het D-Coi-corpus en het SoNaR-corpus. Voor vrijwel elk van deze producten is er zowel een lemmafrequentielijst als een typefrequentielijst beschikbaar.

Productdetails

Jaar: 2014
Opdrachtgever: INT
Dataformaat: txt
Talen: Nederlands
Refereren: Frequentielijsten corpora (Version 4.0.1) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-f8
Toepassing: Referentiemateriaal voor bijvoorbeeld onderwijs: tekstschrijvers kunnen nagaan of bepaalde woorden moeilijk (infrequent) zijn.

Op deze website maken wij gebruik van cookies.