Display:

Dit corpus bestaat uit video- en geluidsopnamen van spontane dialogen tussen proefpersonen. Het bevat 24 video-opnames van spontane dialogen, waarvan er 20 zijn geannoteerd. 42 proefpersonen (14 mannelijk, 28 vrouwelijk) participeerden in dit onderzoek.

Productdetails

Jaar: 2007
Opdrachtgever: UvA
Financier: NWO
Eigenaar: Taalunie
Talen: Nederlands
Refereren: van Son, R. J. J. H. (2007), IFA Dialoog-videocorpus (Version 1.0) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-g5
Documentatie: IFADV-website
LREC2008-artikel
Projectwebsite: IFA Dialog Video corpuswebsite met toegang tot de data

Contains training and testing data for Genre Classification for isiZulu.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Trifonius
Annotaties: UTF8 , Running text
Dataformaat: text
Talen: isiZulu
Documentatie: Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012)
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

Translation memory from English (EN-GB) to isiZulu, in the government domain for use in the Autshumato ITE application.

 

Productdetails

Aantal woorden: Text: 35 458 translation units (tokens)
Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: North-West University , Centre for Text Technology (CTexT)
Annotaties: UTF8 , XML , TMX
Dataformaat: text
Talen: English, isiZulu
Documentatie: Readme contained in download
Licentiesoort: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 South Africa

This custom dictionary was developed in a spelling checker project for the Department of Arts and Culture and it contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of the language.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: North-West University , Centre for Text Technology (CTexT)
Annotaties: Alphabetic list, one word(token) per line , Text , ANSI (Unicode)
Dataformaat: text
Talen: Afrikaans
Documentatie: Project report on evaluation and acceptance available
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

Een semantisch verfijnd basislexicon van het Nederlands van ca. 10.000 trefwoorden, afgeleid van het Referentiebestand Nederlands (RBN).

Productdetails

Jaar: 2014
Opdrachtgever: Taalunie
Eigenaar: Taalunie
Dataformaat: Accessbestand
Talen: Nederlands
Documentatie: Documentatie
Toepassing: Referentiemateriaal, en de data kan verwerkt worden in een automatisch systeem voor taalverwerking (tagging en lemmatisering).

Op deze website maken wij gebruik van cookies.