BasiLex-corpus Commercieel

Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2015
Financier: NWO
Eigenaar: Radboud Universiteit
Dataformaat: xml (FoLiA)
Besturingssysteem: Linux, Windows
Talen: Nederlands
Refereren: Tellings, Aa. E. J. M. (2015), BasiLex-corpus Commercieel (Version 1.0) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-d7
Originele publicatie: Tellings, A., Hulsbosch, M., Vermeer, A. & van den Bosch, A. (2015). BasiLex: an 11.5-million words corpus of Dutch texts written for children. Computational Linguistics in the Netherlands Journal 4, 191-208 (http://www.clinjournal.org/sites/default/files/13-Tellings-etal-CLIN2014.pdf).
Project: WIC-CorD: a Dutch Written Input for Children Corpus, POS-tagged and lemmataized, with a derived lexicon tagged for frequency and linguistic characteristics
Doelpubliek: Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers.

Downloaddetails

Bestandsnaam: BP_BasiLex Corpus C.zip
Versie: 1.0
Bestandsgrootte: 52.22 KB
Bestandstype: application/zip
Aanmaakdatum: 12-03-2018
Om BasiLex-corpus Commercieel te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.

Op deze website maken wij gebruik van cookies.