DAESO-corpus: parallelle Nederlandstalige monolinguale treebank

Het DAESO-corpus is een parallelle monolinguale treebank van Nederlandse teksten en het corpus bevat meer dan 2,1 miljoen woorden parallelle en vergelijkbare tekst. Ongeveer 678.000 woorden werden handmatig opgelijnd en ongeveer 1,5 miljoen woorden automatisch. Er werd een semantische relatie aan de opgelijnde woorden/zinsdelen toegevoegd.

Productdetails

Jaar: 2010
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: De Nederlandse Taalunie
Dataformaat: xml
Talen: Nederlands
Refereren: DAESO-corpus: parallelle Nederlandstalige monolinguale treebank(Version 1.0) (2010) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-h9
Documentatie: Construction of an aligned monolingual treebank for studying semantic similarity
CLIN2007-artikel
Projectwebsite: http://daeso.uvt.nl/

Downloaddetails

Bestandsnaam: daeso10.tgz
Versie: 1.0
Bestandsgrootte: 92.46 MB
Bestandstype: application/x-compressed-tar
Aanmaakdatum: 12-03-2018
Om DAESO-corpus: parallelle Nederlandstalige monolinguale treebank te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.

Op deze website maken wij gebruik van cookies.