Display:

Het Lassy Klein-corpus Commercieel is een corpus van ongeveer 772.000 woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.

Het corpus is beschikbaar in zowel xml als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten (van de gehele niet-commerciële versie van het corpus).

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2012
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: xml, dact
Software: Dact
Talen: Nederlands
Refereren: Lassy Klein-corpus Commercieel (Version 1.1) (2012) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n9
Documentatie: LREC2006-artikel
TLT2009-artikel
Project: LASSY: Large Scale Syntactic Annotation of written Dutch
Projectwebsite: http://www.let.rug.nl/~vannoord/Lassy/
Toepassing: Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica.

Het IFA-corpus is een database voor fonetisch onderzoek die bestaat uit Nederlandse spraakdata van 8 personen; 4 mannelijk en 4 vrouwelijk. Het corpus bevat in totaal zo'n 50.000 woorden die zijn gesegmenteerd op foneemniveau.

Productdetails

Jaar: 2001
Opdrachtgever: UvA
Financier: NWO
Eigenaar: Taalunie
Dataformaat: wav
Talen: Nederlands
Refereren: van Son, R. J. J. H. (2001), IFA Corpus (Version 1.0) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n8
Documentatie: IFA-documentatie met o.a. artikelen en protocollen
Projectwebsite: IFA-website met toegang tot de data

Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POIs) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast werden sprekers in staat gesteld meerdere pogingen voor een POI op te nemen, wat heeft geresulteerd in 5677 extra geluidsbestanden. Alle uitingen zijn handmatig fonetisch getranscribeerd.

Productdetails

Jaar: 2010
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: Spraakbestanden (wav), Fon. transcripties (txt)
Talen: Nederlands, Vlaams
Refereren: AUTONOMATA POI Corpus (version 1.0) (2010) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n7
Documentatie: Documentatie
Project: AUTONOMATA Too
Projectwebsite: http://lands.let.ru.nl/projects/AutonomataToo/index.php

Het Eindhoven-corpus (VU-versie) is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens.

Productdetails

Jaar: 2014
Opdrachtgever: Vrije Universiteit afdeling CCL
Dataformaat: txt
Talen: Nederlands
Refereren: Eindhoven-corpus (Version 2.0.1) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n6
Documentatie: Gebruikershandleiding
Documentatie (oorspronkelijke versie & VU-versie)

Translation memory from Afrikaans to English (EN-GB), in the government domain for use in the Autshumato ITE application.

 

Productdetails

Aantal woorden: 359 817 translation units (tokens)
Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: North-West University , Centre for Text Technology (CTexT)
Annotaties: UTF8 , XML , TMX
Dataformaat: text
Talen: Afrikaans, English
Documentatie: Readme contained in download
Licentiesoort: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 South Africa

Op deze website maken wij gebruik van cookies.