Display:

Contains training and testing data for Genre Classification for Sesotho sa Leboa.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Trifonius
Annotaties: UTF8 , Running text
Dataformaat: Text
Talen: Sesotho sa Leboa (Sepedi)
Documentation: Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012)
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

General phonemic pronunciations for frequently occurring words in isiXhosa. This dictionary was developed to be practically usable for speech technology systems, rather than phonetically accurate. Audio samples of all phonemes are included. A letter-to-sound rule set for predicting the pronunciations of generic words is also included.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Aantal uren spraak: Approx. 65,000 words
Dataformaat: Speech
Talen: isiXhosa
Documentation: 1) M Davel and O Martirosian, "Pronunciation dictionary development in resource-scarce environments", In Proceedings of Interspeech, Brighton, UK, September 2009
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

Contains training and testing data for Genre Classification for Sesotho.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Trifonius
Annotaties: UTF8 , Running text
Dataformaat: Text
Talen: Sesotho (Southern Sotho)
Documentation: Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012)
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

De CGN-annotaties bevatten het volledig geannoteerde Corpus Gesproken Nederlands (CGN) in getranscribeerde vorm en ook Corex, de corpusexploratiesoftware die bij het CGN hoort.

 

Productdetails

Jaar: 2014
Opdrachtgever: NTU
Financier: Vlaamse en Nederlandse regering en NWO
Eigenaar: Taalunie
Dataformaat: xml
Besturingssysteem: Linux, Windows
Talen: Nederlands, Vlaams
Refereren: CGN-annotaties (Version 2.0.3) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n5
Documentatie: Over het Corpus Gesproken Nederlands (pdf)
Webcursus: CGN-webcursus
Project: Corpus Gesproken Nederlands
Projectwebsite: CGN-website
Toepassing: Voornamelijk voor onderzoek

Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.

Voor dit product moet een licentie worden ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2015
Financier: NWO
Eigenaar: Radboud Universiteit
Dataformaat: xml (FoLiA)
Besturingssysteem: Linux, Windows
Talen: Nederlands
Refereren: Tellings, A. E. J. M. (2015), BasiLex Corpus (Version 1.0) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n4
Originele publicatie: Tellings, A., Hulsbosch, M., Vermeer, A. & van den Bosch, A. (2015). BasiLex: an 11.5-million words corpus of Dutch texts written for children. Computational Linguistics in the Netherlands Journal 4, 191-208 (http://www.clinjournal.org/sites/default/files/13-Tellings-etal-CLIN2014.pdf).
Project: WIC-CorD: a Dutch Written Input for Children Corpus, POS-tagged and lemmatized, with a derived lexicon tagged for frequency and linguistic characteristics
Doelpubliek: Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers.

Op deze website maken wij gebruik van cookies.