Display:

Het Lassy Groot-corpus Commercieel is een corpus van ongeveer 476 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Verzend- en afhandelingskosten

Vanwege de hoeveelheid data wordt dit product gedistribueerd op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor.

Productdetails

Jaar: 2015
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: xml (compact)
Talen: Nederlands
Refereren: Lassy Groot-corpus Commercieel (Version 2.0) (2015) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-m7
Documentatie: LREC2006-artikel
TLT2009-artikel
Project: LASSY: Large Scale Syntactic Annotation of written Dutch
Projectwebsite: http://www.let.rug.nl/~vannoord/Lassy/
Toepassing: Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica.

Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Annotaties: Transcriptions: a) One utterance per file b) ANSI (Unicode) c) txt Audio: a) 8 KHz b) 16-bit c) 1 Channel; telephone d) wav
Aantal uren spraak: 634 min
Dataformaat: Speech
Talen: Siswati
Documentatie: Lwazi Project Final Report "Development of a telephone-based speech-driven information service for the South African Government"
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I

This custom dictionary was developed in a spelling checker project for the Department of Arts and Culture and it contains an alphabetic list of words which are exclusive to the government domain or which are not part of the official orthography of isiXhosa.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: North-West University, Centre for Text Technology (CTexT)
Annotaties: Alphabetic list, one word(token) per line , Text , ANSI (Unicode)
Dataformaat: text
Talen: isiXhosa
Documentatie: Project report on evaluation and acceptance available
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

De ondertiteldata behorend bij de Nederlandstalige video’s op de website www.2BDutch.nl , vormt het product Meertalige Ondertiteldata 2BDutch.

Op de website van 2BDutch staan video's met ondertitelingsmogelijkheid in verschillende talen. Met deze video's kunnen studenten Nederlands van alle niveaus hun luistervaardigheden oefenen en nieuwe Nederlandse woorden leren.De ondertiteldata behorende tot deze video’s kan gebruikt worden voor verschillende taal- en spraaktechnologische toepassingen waaronder automatisch vertalen en automatische spraakherkenning.

Productdetails

Jaar: 2014
Opdrachtgever: Sowmedia en Ditvoorst internet Services
Financier: Sowmedia en Ditvoorst internet Services
Eigenaar: Sowmedia en Ditvoorst internet Services
Dataformaat: SubRip (.srt)
Talen: Nederlands, Spaans, Portugees, Engels, Frans, Duits
Refereren: Meertalige Ondertiteldata 2BDutch (Version 1.0) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-m5
Toepassing: onderzoek, automatisch vertalen, automatische spraakherkenning

Het PAROLE-lexicon bevat ruim 20.000 entry's, die voorzien werden van woordsoort, getal, naamval en syntactische complementatiepatronen.

Productdetails

Jaar: 1999
Eigenaar: INT
Dataformaat: SGML
Talen: Nederlands, Vlaams
Refereren: PAROLE Lexicon (Version 1.0) (1999) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-m4
Documentatie: Achtergrondinformatie
Lexiconinhoud
Woordsoorttagset
Project: PAROLE: Preparatory Action for Linguistic Resources Organization for Language Engineering
Bijzonderheden: INT behandelt voor dit product alleen aanvragen uit Nederland en België. Voor alle overige landen geldt dat het corpus besteld kan worden via ELDA onder referentienummer L0031.

Op deze website maken wij gebruik van cookies.