Lassy Klein-corpus

Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.

Het corpus is beschikbaar in zowel xml als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.

Productdetails

Jaar: 2016
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: xml, dact
Software: Dact
Talen: Nederlands
Documentatie: LREC2006-artikel
TLT2009-artikel
Project: LASSY: Large Scale Syntactic Annotation of written Dutch
Projectwebsite: http://www.let.rug.nl/~vannoord/Lassy/
Toepassing: Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica.

Downloaddetails

File Name: LassySmall-v4.0.tgz
Version: 4.0
File Size: 947.97 MB
File Type: application/x-compressed-tar
Created Date: 12-03-2018
Om Lassy Klein-corpus te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.