SoNaR-corpus

Het SoNaR-corpus is een tekstcorpus dat bestaat uit twee delen, nl. SoNaR-500 en SoNaR-1.

SoNaR-500 bevat meer dan 500 miljoen woorden tekst afkomstig uit uiteenlopende domeinen en genres. Alle teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd. Ook de named entities werden gelabeld. Alle annotaties van SoNaR-500 werden automatisch geproduceerd.

SoNaR-1 is grotendeels een subset van SoNaR-500 en bevat 1 miljoen woorden. SoNaR-1 werd voorzien van verschillende soorten semantische annotaties, nl. named entity labelling, coreferentieannotatie en de annotatie van spatiële en temporele relaties. Alle annotaties van SoNaR-1 werden manueel geverifieerd.

De nieuwemediateksten (tweets, chats en sms'en), die ook verzameld werden in het kader van het STEVIN-project SoNaR maken geen deel uit van het SoNaR-corpus 1.0. en zijn apart als het SoNar Nieuwe Media Corpus beschikbaar.

Het SoNaR Corpus is ook online te bevragen. Zie de productpagina van OpenSoNaR

 

Verzend- en afhandelingskosten

Dit taalmateriaal wordt standaard als download aangeboden en dan worden er geen kosten aangerekend. Maar omwille van de grote hoeveelheid data kan het SoNaR-corpus ook aangevraagd worden op een externe harde schijf. Hier rekent het INT €100,00 verzend- en afhandelingskosten voor.

Productdetails

Jaar: 2015
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Nederlandse Taalunie
Talen: Nederlands
Refereren: SoNaR-corpus (Version 1.2.1) (2015) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-h5
Documentatie: Documentatie
Project: SoNaR
Projectwebsite: http://lands.let.ru.nl/projects/SoNaR

Downloaddetails

Bestandsnaam: 20150602_SoNaRCorpus_NC_1.2.1.tgz
Versie: 1.2.1
Bestandsgrootte: 57.44 GB
Bestandstype: application/x-compressed-tar
Aanmaakdatum: 12-03-2018
Om SoNaR-corpus te kunnen downloaden moet u eerst inloggen. Door vervolgens op 'Akkoord' te klikken gaat u akkoord met de voorwaarden. Een versie van deze voorwaarden zit ook in het downloadpakket.
U bent nog niet ingelogd.

Op deze website maken wij gebruik van cookies.