SoNaR Nieuwe Media Corpus

Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.

Omdat dit product teksten bevat die afkomstig zijn uit correspondentie zoals 'tweets' die via Twitter verzameld zijn, 'chats' die via publieke internetfora verzameld zijn en sms’en die individuele personen aan de licentiegever verstrekt hebben ten behoeve van dit product, dient de aanvrager extra zorgvuldig met de data om te gaan.

De SoNaR-projectpartners en de Nederlandse Taalunie hebben hun uiterste best gedaan om bronnen en rechthebbenden van alle SoNaR-teksten te achterhalen. Wanneer desondanks teksten zijn opgenomen waarvan u (mede)rechthebbende bent en waarvan u niet als bron of rechthebbende wordt genoemd en/of waarvan u voor het gebruik geen toestemming hebt verleend, dan kunt u met ons contact opnemen via Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..

Het SoNaR Nieuwe Media Corpus maakt geen deel uit van het SoNaR-corpus maar is als apart product beschikbaar.

Productdetails

Jaar: 2013
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Talen: Nederlands
Refereren: SoNaR Nieuwe Media Corpus (Version 1.0) (2013) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-k3
Documentatie: Documentatie
Project: SoNaR
Projectwebsite: http://lands.let.ru.nl/projects/SoNaR

Downloaddetails

Bestandsnaam: 20150730_SoNaRNewMediaCorpus_1.0.1.zip
Versie: 1.0
Bestandsgrootte: 3.4 GB
Bestandstype: application/zip
Aanmaakdatum: 12-03-2018
Om SoNaR Nieuwe Media Corpus te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.

Op deze website maken wij gebruik van cookies.