Display:
Sort By:

Het DuOMAn-subjectivitylexicon bevat ongeveer 9.000 werkwoorden, bijwoorden, substantieven en adjectieven waarvan aangegeven werd of ze een (zeer) negatieve, een neutrale of een (zeer) positieve gevoelswaarde hebben.

 

Productdetails

Jaar: 2014
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Nederlandse Taalunie
Dataformaat: Txt
Talen: Nederlands
Documentatie: Evaluation report: building a Dutch Subjectivity Lexicon
Generating a Non-English Subjectivity Lexicon: Relations that matter
Project: DuOMAn
Toepassing: Sentimentanalyse van teksten

Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.

Het corpus is beschikbaar in zowel xml als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.

Productdetails

Jaar: 2016
Opdrachtgever: NTU|STEVIN
Financier: NTU|STEVIN
Eigenaar: Taalunie
Dataformaat: xml, dact
Software: Dact
Talen: Nederlands
Documentatie: LREC2006-artikel
TLT2009-artikel
Project: LASSY: Large Scale Syntactic Annotation of written Dutch
Projectwebsite: http://www.let.rug.nl/~vannoord/Lassy/
Toepassing: Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica.

Dupira is een Dependency Parser voor het Nederlands, ontwikkeld aan de Radboud Universiteit in Nijmegen. Dupira is een regelgebaseerde parser, die uit de Dupira grammatica, lexicon en fact tables is gegenereerd met de AGFL parser generator. Met behulp van de grammatica transduceert de parser zinnen naar dependency graphs. Dupira is ontwikkeld voor praktische toepassingen in Information Retrieval en informatiesystemen die een natuurlijke taal-interface nodig hebben. De beoogde gebruikers zijn eerder computerwetenschappers dan taalkundigen. Meer documentatie is te vinden in: Cornelis HA Koster (2013) "An Aboutness-based Dependency Parser for Dutch ". Technisch Rapport. Dit document wordt samen met Dupira gedistribueerd.

Productdetails

Jaar: 2012
Opdrachtgever: nvt
Financier: Radboud Universiteit Nijmegen, Phasar bv
Eigenaar: Cornelis H.A. Koster
Aantal uren spraak: nvt
Dataformaat: nvt
Besturingssysteem: Windows 7, Linux, Debian
Software: gecompileerde Dupira grammatica(dupira.aob en dupira.blx), zonder de broncode
Talen: Nederlands
Demo: nee
Webcursus: nee
Documentatie: dupira.pdf
Project: Phasar/TM4IP
Projectwebsite: Phasar
Toepassing: Dependency parsing voor het Nederlands; Information retrieval
Bijzonderheden: Maakt gebruik van AGFL

Contains training and testing data for Genre Classification for Setswana.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Trifonius
Annotaties: UTF8 , Running text
Dataformaat: Text
Talen: Setswana
Documentation: Cross-Lingual Genre Classification for Closely Related Languages (Prasa 2012)
Licentiesoort: Creative Commons Attribution 2.5 South Africa License

Complete audio recordings and orthographic transcriptions used for Lwazi speech recognition systems.

 

Productdetails

Opdrachtgever: Department of Arts and Culture
Financier: Department of Arts and Culture
Eigenaar: Meraka Institute, CSIR
Annotaties: Transcriptions: a) One utterance per file b) ANSI (Unicode) c) txt Audio: a) 8 KHz b) 16-bit c) 1 Channel; telephone d) wav
Aantal uren spraak: 520 min
Dataformaat: Speech
Talen: Xitsonga
Documentatie: Lwazi Project Final Report "Development of a telephone-based speech-driven information service for the South African Government"
Licentiesoort: Creative Commons Attribution 2.5 South Africa License
Project: Lwazi I