Display:

Moroccorp is een corpus van communicatie via internet-chat tussen Marokkaans-Nederlandse taalgebruikers, bestaande uit tien miljoen woorden. De data wordt aangeboden als een tekstbestand van 82.4 Mb.

Moroccorp is a corpus of computer-mediated communication in Dutch by Moroccan-Dutch language users, consisting of ten million words of chat material. The data is delivered in a .txt file of 82.4 Mb.

 

Productdetails

Jaar: 2019
Versie: 1.1
Periode: 2012
Woorden: 10.000.000
Talen: Nederlands
Refereren: Moroccorp (Version 1.1) (2019) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-q4
Documentatie: Ruette, T. and van de Velde, F. (2013) Moroccorp: tien miljoen woorden uit twee Marokkaans-Nederlandse chatkanalen. Lexikos 23: 456-475.

Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp. Voor ieder cluster werden twee samenvattingen gemaakt van verschillende grootte en ook extracts bestaande uit tien zinnen uit de teksten.

De commerciële versie van dit corpus bevat een tweetal clusters minder dan de niet-commerciële versie.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2014
Financier: Universiteit Antwerpen (Kleine Projecten BOF 2008)
Eigenaar: Universiteit Antwerpen
Talen: Nederlands
Refereren: SumNL-samenvattingencorpus Commercieel (Version 1.0) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-q5
Documentatie: Technisch rapport

Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de website http://www.wablieft.be/krant/archief.

Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands. Er is metadata beschikbaar i.v.m. de krantenrubriek (binnenland, sport, ...) en de publicatiedatum. Het betreft al het materiaal sinds de krant volledig digitaal en online beschikbaar is, van 2011 tot december 2017.

De data is beschikbaar in verschillende formaten: oorspronkelijke tekstbestanden, tekstbestanden met één zin per lijn, geannoteerd met Frog (POS-tagging, lemmatisering, morfologie, named entity recognition, chunking, dependency relaties) in FoLiA of CoNNL, en syntactisch geanalyseerd met Alpino, in Alpino-xml.

Er is een overeenkomst met Wablieft voor de verspreiding van dit materiaal voor niet-commerciële doeleinden. Commerciële partijen kunnen contact opnemen met Wablieft om een licentie voor het materiaal te verkrijgen.

 

Productdetails

Jaar: 2019
Versie: 1.2
Periode: 2011-2017
Woorden: 2.000.000
Eigenaar: Wablieft
Talen: Nederlands
Refereren: Wablieft-corpus (Version 1.2) (2019) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/Tm-a2-q6

De Reeks Nederlandse Dialectatlassen is een serie boeken, uitgegeven tussen 1925 en 1976, met daarin de fonetische transcripties van een vast aantal zinnen. Daarbij is de uitspraak vastgelegd van zegslieden uit een groot aantal dorpen en steden in Nederland en Vlaanderen. De boeken zijn uitgegeven door uitgeverij De Sikkel, nu Van In. De volledige inhoud van die boeken is te vinden bij de Universiteit van Gent.

De RND Woordenlijsten bevat de digitalisatie van een reeks specifieke woorden uit de RND.

Productdetails

Jaar: 2019
Eigenaar: Uitgeverij Van In
Dataformaat: xlsx
Talen: Nederlands
Refereren: RND Woordenlijsten (Version 1.0) (2019) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-q7
Originele publicaties:

Wilbert Heeringa (2001). De selectie en digitalisatie van dialecten en woorden uit de Reeks Nederlandse Dialectatlassen. TABU, Bulletin voor Taalwetenschap, volume 31, number 1/2, pp. 61-103.

Wilbert Heeringa (2004). Measuring dialect pronunciation differences using Levenshtein distance. Doctoral dissertation University of Groningen.

Documentatie: Documentatie

Op deze website maken wij gebruik van cookies.