BasiLex Corpus

Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.

Voor dit product moet een licentie worden ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2015
Financier: NWO
Eigenaar: Radboud Universiteit
Dataformaat: xml (FoLiA)
Besturingssysteem: Linux, Windows
Talen: Nederlands
Refereren: Tellings, A. E. J. M. (2015), BasiLex Corpus (Version 1.0) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-n4
Originele publicatie: Tellings, A., Hulsbosch, M., Vermeer, A. & van den Bosch, A. (2015). BasiLex: an 11.5-million words corpus of Dutch texts written for children. Computational Linguistics in the Netherlands Journal 4, 191-208 (http://www.clinjournal.org/sites/default/files/13-Tellings-etal-CLIN2014.pdf).
Project: WIC-CorD: a Dutch Written Input for Children Corpus, POS-tagged and lemmataized, with a derived lexicon tagged for frequency and linguistic characteristics
Doelpubliek: Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers.

Downloaddetails

Bestandsnaam: BP_BasiLexCorpusNC.zip
Versie: 1.0
Bestandsgrootte: 52.32 KB
Bestandstype: application/zip
Aanmaakdatum: 12-03-2018
Om BasiLex Corpus te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.

Op deze website maken wij gebruik van cookies.