Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.
Het corpus is beschikbaar in zowel XML als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.
Jaar: | 2016 |
Versie: | 4.0 |
Opdrachtgever: | NTU|STEVIN |
Financier: | NTU|STEVIN |
Eigenaar: | Taalunie |
Dataformaat: | xml, dact |
Software: | Dact |
Talen: | Nederlands |
Refereren: | Lassy Klein-corpus (Version 4.0) (2016) [Data set]. Available at the Dutch Language Institute: http://hdl.handle.net/10032/tm-a2-g7 |
Documentatie: | LREC2006-artikel TLT2009-artikel |
Project: | LASSY: Large Scale Syntactic Annotation of written Dutch |
Projectwebsite: | http://www.let.rug.nl/~vannoord/Lassy/ |
Toepassing: | Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica. |
Bestandsnaam: | LassySmall-v4.0.tgz |
Versie: | 4.0 |
Bestandsgrootte: | 947.97 MB |
Bestandstype: | application/x-compressed-tar |
Aanmaakdatum: | 12-03-2018 |