Wablieft-corpus

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.

Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.

De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependency relaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.

Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.

 

Productdetails

Jaar: 2019
Versie: 1.1
Periode: 2011-2017
Woorden: 2.000.000
Eigenaar: Wablieft
Talen: Nederlands
Refereren: Wablieft-corpus (Version 1.1) (2019) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/Tm-a2-p4

Downloaddetails

Bestandsnaam: wablieft_v1.1.2.zip
Versie: 1.1
Bestandsgrootte: 621.75 MB
Bestandstype: application/zip
Aanmaakdatum: 12-03-2018
Om Wablieft-corpus te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.

Op deze website maken wij gebruik van cookies.