Display:

Het NAMES corpus bevat een verzameling van 189.707 voornamen (61.9 miljoen tokens) en 562.676 achternamen (54.6 miljoen tokens) zoals gevonden in 19de eeuwse geboorte-, huwelijks- en overlijdensakten (toegankelijk via wiewaswie.nl in de versie van 2011). Het is een resultaat van het CLARIAH project 'NAMES' dat als doel had naamstandaarden te ontwikkelen voor het beheersen van variaties in persoonsnamen. De clustering van namen onder een standaard is gebaseerd op bestaande kennis van varianten en op spellingsovereenkomst. Er is gebruik is gemaakt van zowel automatische als handmatige gegevensverwerking. Praktische bruikbaarheid van een standaard (met verschillende kwaliteitsniveaus) had de voorkeur boven een etymologisch verantwoorde afleiding die vaak niet te maken is.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2020
Versie: 1.1
Opdrachtgever: Clariah
Financier: NWO|KNAW
Eigenaar:
Dataformaat: tsv, sql
Software: MySQL of equivalent
Talen: Nederlands
Refereren: NAMES-Corpus (Version 1.1) (2020) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-r6
Documentatie: NAMES Manual
Project: Names
Projectwebsite: CLARIAH pilot Names

Het DuOMAn Subjectivity Lexicon bevat ongeveer 9000 werkwoorden, bijwoorden, substantieven en adjectieven waarvan aangegeven werd of ze een (zeer) negatieve, een neutrale of een (zeer) positieve gevoelswaarde hebben.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2014
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Nederlandse Taalunie
Dataformaat: Txt
Talen: Nederlands
Refereren: DuOMAn Subjectivity Lexicon (Version 1.0) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-g9
Documentatie: Evaluation report: building a Dutch Subjectivity Lexicon
Generating a Non-English Subjectivity Lexicon: Relations that matter
Project: DuOMAn
Toepassing: Sentimentanalyse van teksten

De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het Corpus Gesproken Nederlands, het Algemeen Nederlands Woordenboekcorpus, het Eindhoven-corpus, het D-Coi-corpus en het SoNaR-corpus. Voor vrijwel elk van deze producten is er zowel een lemmafrequentielijst als een typefrequentielijst beschikbaar.

Dit product is gratis. Maar het is wel noodzakelijk dat eerst een licentie wordt ondertekend. De download bevat de licentie en verdere instructies voor het plaatsen van een bestelling.

Productdetails

Jaar: 2014
Opdrachtgever: INT
Dataformaat: txt
Talen: Nederlands
Refereren: Frequentielijsten corpora (Version 4.0.1) (2014) [Data set]. Available at the Dutch Language Institute:
http://hdl.handle.net/10032/tm-a2-f8
Toepassing: Referentiemateriaal voor bijvoorbeeld onderwijs: tekstschrijvers kunnen nagaan of bepaalde woorden moeilijk (infrequent) zijn.

Op deze website maken wij gebruik van cookies.