Categorieën
Nieuws

Verantwoorde webdata voor GPT-NL

GPT-NL ontwikkelt een taalmodel voor de Nederlandse taal en cultuur: betrouwbaar, transparant, wederkerig, en soeverein. Er wordt alleen gewerkt met kwalitatieve, Nederlandse data die rechtmatig verkregen is. INT-computerlinguïst Bram Vanroy ontwikkelde voor GPT-NL een programma om webpagina’s te kunnen filteren op soort licentie.

Bij GPT-NL wordt ervoor gekozen om geen auteursrechtelijk beschermde teksten te gebruiken zonder toestemming. Alleen publiekelijk beschikbare data als die onder de juiste licentie vallen worden gebruikt. Dat betekent dus: oppassen met webdata. Om dat op een verantwoorde manier te kunnen doen werkte GPT-NL samen met Bram Vanroy. Samen met Frank Brinkkemper, betrokken bij dataverzameling, ontwikkelde hij een methode om webpagina’s te selecteren waarvan de licentie juridisch én ethisch verantwoord gebruik toelaat. 

Lees meer op de website van GPT-NL


Laatste nieuwsberichten:

Of bekijk alle nieuwsberichten.