Display:

Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Annotaties: Transcriptions: a) One utterance per file b) ANSI (Unicode) c) txt Audio: a) 8 KHz b) 16-bit c) 1 Channel; telephone d) wav
Aantal uren spraak: 257 mins
Dataformaat: Speech
Talen: Afrikaans
Documentatie: Lwazi Project Final Report "Development of a telephone-based speech-driven information service for the South African Government"
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

Cd-rom Middelnederlands (verschenen in 1998) bevat het Middelnederlandsch Woordenboek, de teksten van het Corpus Gysseling en een collectie van bijna 300 rijm- en prozateksten. Omdat de installatiesoftware niet meer compatibel is met de huidige besturingssystemen, wordt de woordenboekapplicatie als bestand ter beschikking gesteld via Taalmaterialen van het INT. Deze applicatie is alleen te gebruiken onder Windows.

Productdetails

Jaar: 1998
Eigenaar: Instituut voor de Nederlandse Taal
Refereren: Cd-rom Middelnederlands (Version 1.0) (1998) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-f5
Documentatie:  Beschrijving Middelnederlandsch Woordenboek
Website: http://ivdnt.org/onderzoek-a-onderwijs/lexicologie-a-lexicografie/mnw

General phonemic pronunciations for frequently occurring words in isiZulu. This dictionary was developed to be practically usable for speech technology systems, rather than phonetically accurate. Audio samples of all phonemes are included. A letter-to-sound rule set for predicting the pronunciations of generic words is also included.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Aantal uren spraak: Approx. 65,000 words
Dataformaat: Speech
Talen: isiZulu
Documentation: 1) M Davel and O Martirosian, "Pronunciation dictionary development in resource-scarce environments", In Proceedings of Interspeech, Brighton, UK, September 2009
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Annotaties: Transcriptions: a) One utterance per file b) ANSI (Unicode) c) txt Audio: a) 8 KHz b) 16-bit c) 1 Channel; telephone d) wav
Aantal uren spraak: 614 mins
Dataformaat: Speech
Talen: isiNdebele
Documentatie: Lwazi Project Final Report "Development of a telephone-based speech-driven information service for the South African Government"
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

Het SoNaR Groot-corpus Commercieel is een tekstcorpus dat ongeveer 271 miljoen woorden tekst bevat afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2015
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Talen: Nederlands
Refereren: SoNaR Groot-corpus Commercieel (Version 1.2.1) (2015) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-f4
Documentatie: Documentatie, verschillende SoNaR-corpora
Project: SoNaR: STEVIN Nederlandstalig Referentiecorpus
Projectwebsite: http://lands.let.ru.nl/projects/SoNaR

Op deze website maken wij gebruik van cookies.