Tijdens het STEVIN-project PaCo-MT werden twee bestaande parallelle corpora verrijkt met syntactische annotaties en node alignments. De annotaties werden automatisch gegenereerd.
Het Lassy Groot-corpus is een corpus van ongeveer 700 miljoen woorden met automatisch gegenereerde syntactische annotaties. De lemma's en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino.
Voor dit product moet een licentie worden ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.
Vanwege de hoeveelheid data wordt dit product gedistribueerd op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor. Meer informatie vindt u in het downloadpakket.
Custom dictionary developed in spelling checker project for the Department of Arts and Culture. Contains words exclusive to the government domain or words that are not part of the official orthography of the language.
English and Afrikaans parallel corpora aligned on sentence level through a combination of automatic and manual alignment techniques. The parallel corpora were obtained from the SA government domain.
Lees onze privacyverklaring
Op deze website maken wij gebruik van cookies.