Het Lassy Klein-corpus Commercieel is een corpus van ongeveer 772.000 woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.
Het corpus is beschikbaar in zowel xml als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten (van de gehele niet-commerciële versie van het corpus).
Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.
Het IFA-corpus is een database voor fonetisch onderzoek die bestaat uit Nederlandse spraakdata van 8 personen; 4 mannelijk en 4 vrouwelijk. Het corpus bevat in totaal zo'n 50.000 woorden die zijn gesegmenteerd op foneemniveau.
Het AUTONOMATA-POI-corpus is een database van 800 voorgelezen points of interest (POIs) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc. Het corpus bevat opnames van 80 sprekers met verschillende taalachtergronden, in totaal 16.000 geluidsbestanden. Daarnaast werden sprekers in staat gesteld meerdere pogingen voor een POI op te nemen, wat heeft geresulteerd in 5677 extra geluidsbestanden. Alle uitingen zijn handmatig fonetisch getranscribeerd.
Het Eindhoven-corpus (VU-versie) is een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976. Het corpus bevat ca. 768.000 tokens.
Translation memory from Afrikaans to English (EN-GB), in the government domain for use in the Autshumato ITE application.
Lees onze privacyverklaring
Op deze website maken wij gebruik van cookies.