GPT-NL ontwikkelt een taalmodel voor de Nederlandse taal en cultuur: betrouwbaar, transparant, wederkerig, en soeverein. Er wordt alleen gewerkt met kwalitatieve, Nederlandse data die rechtmatig verkregen is. INT-computerlinguïst Bram Vanroy ontwikkelde voor GPT-NL een programma om webpagina’s te kunnen filteren op soort licentie.
Bij GPT-NL wordt ervoor gekozen om geen auteursrechtelijk beschermde teksten te gebruiken zonder toestemming. Alleen publiekelijk beschikbare data als die onder de juiste licentie vallen worden gebruikt. Dat betekent dus: oppassen met webdata. Om dat op een verantwoorde manier te kunnen doen werkte GPT-NL samen met Bram Vanroy. Samen met Frank Brinkkemper, betrokken bij dataverzameling, ontwikkelde hij een methode om webpagina’s te selecteren waarvan de licentie juridisch én ethisch verantwoord gebruik toelaat.