Display:

Tijdens het STEVIN-project PaCo-MT werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd.

Productdetails

Jaar: 2014
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: xml
Refereren: PaCo-MT Parallelle Corpora (Version 1.0) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-f7
Project: Paco-MT
Projectwebsite: http://www.ccl.kuleuven.be/Projects/PACO/paco.php

Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino.

Voor dit product moet een licentie worden ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Verzend- en afhandelingskosten

Vanwege de hoeveelheid data wordt dit product gedistribueerd op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor. Meer informatie vindt u in het downloadpakket.

Productdetails

Jaar: 2016
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: xml (compact)
Talen: Nederlands
Refereren: Lassy Groot-corpus (Version 4.0) (2016) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-f6
Documentatie: LREC2006-artikel
TLT2009-artikel
Project: LASSY: Large Scale Syntactic Annotation of written Dutch
Projectwebsite: http://www.let.rug.nl/~vannoord/Lassy/
Toepassing: Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica.

Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: North-West University , Centre for Text Technology (CTexT)
Annotaties: Alphabetic list, one word(token) per line , Text , ANSI (Unicode)
Dataformaat: Text
Talen: Tshivenda
Documentation: Project report on evaluation and acceptance available
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: North-West University , Centre for Text Technology (CTexT)
Annotaties: Alphabetic list, one word(token) per line , Text , ANSI (Unicode)
Dataformaat: Text
Talen: Siswati
Documentation: Project report on evaluation and acceptance available
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

English and Afrikaans parallel corpora aligned on sentence level through a combination of automatic and manual alignment techniques. The parallel corpora were obtained from the SA government domain.

 

Productdetails

Aantal woorden: Text: 421 319 sentences (tokens)
Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: North-West University , Centre for Text Technology (CTexT)
Annotaties: UTF8 , Aligned , Sentence segmented
Dataformaat: text
Talen: Afrikaans, English
Documentatie: Readme contained in download
Licentiesoort: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 South Africa

Op deze website maken wij gebruik van cookies.