Nederlandse uitgevers leveren grote verzameling artikelen voor training GPT-NL

Goed nieuws voor GPT-NL. De leden van NDP Nieuwsmedia stellen een omvangrijk deel van het archief van nieuwsartikelen van meer dan 30 landelijke en regionale nieuwstitels beschikbaar om het taalmodel verder te trainen. Verwachting is dat hiermee in één klap de hoeveelheid hoogwaardige Nederlandse data waarop het model wordt getraind, verdubbelt. Ook persbureau ANP sluit zich aan bij het collectief.
GPT-NL is het eerste grootschalige Nederlandse AI-taalmodel dat volledig wordt getraind op legaal verkregen data. Geen techproject van een Silicon Valley-gigant, maar een initiatief van Nederlandse non-profitorganisaties TNO, NFI en SURF. Het model wordt getraind op zorgvuldig geselecteerde, rechtmatig verkregen data. Dat betekent: geen willekeurige kopieën van het internet, maar gecontroleerde bronnen — en daar hoort journalistieke content dus ook bij. De inzet? Een AI die teksten kan samenvatten, versimpelen en informatie eruit kan halen, met een sterke basis in het Nederlands.
Dankzij de samenwerking met NDP Nieuwsmedia, waarin onder andere DPG Media, Mediahuis, Erdee Media Groep en De Groene Amsterdammer zitten, krijgt GPT-NL toegang tot een breed palet aan artikelen, over thema’s als politiek, economie, zorg en wetenschap. Die rijke bron van actuele en kwalitatieve content maakt het model slimmer, preciezer en relevanter voor Nederland.
Geen “gratis meeliften”
De inzet van journalistieke data gebeurt onder strikte voorwaarden. Het model wordt zo ontworpen dat de oorspronkelijke artikelen niet via technische wegen gereconstrueerd kunnen worden. Bovendien is afgesproken dat uitgevers een passende vergoeding ontvangen wanneer GPT-NL commercieel wordt ingezet. Zo ontstaat een model dat niet alleen technologisch vooruitstrevend is, maar ook een nieuw moreel en juridisch kader stelt voor de omgang met auteursrechtelijk beschermd materiaal in AI-systemen. Geen “gratis meeliften” dus, maar een eerlijke samenwerking.
Volgens Rien van Beemen, voorzitter van NDP Nieuwsmedia, is dat hard nodig: ‘Tot nu toe zijn veel internationale AI-modellen gebouwd met nieuwsartikelen die simpelweg zijn overgenomen — zonder toestemming of betaling. Wij laten zien dat het ook anders kan. Op deze manier beschermen we de journalistiek én stimuleren we innovatie op een verantwoorde manier.’
Deals maken met data-eigenaren
Het bleek voor de makers van GPT-NL niet eenvoudig om aan data te komen om het model mee te trainingen. Eerder deed Saskia Lensink, productmanager van GPT-NL, al via iBestuur een oproep aan organisaties om data beschikbaar te stellen. Lensink: ‘We hebben te maken met een veelheid aan regels. Het gaat over verschillende juridische vakgebieden, van de AVG tot het intellectueel eigendomsrecht, en de interactie daartussen. Ook zitten er bepaalde voorwaarden aan de subsidie. Bovendien willen we het netjes doen en de data niet zomaar ergens vandaan plukken, maar met data-eigenaren in gesprek gaan om tot een deal te komen. Veel waardevolle data die een toevoeging kunnen zijn voor het trainen van het model zitten bij commerciële partijen. Die geven hun data begrijpelijkerwijs niet zomaar gratis weg.’
Licenties en afspraken
Vanwege licenties en afspraken met derden kan GPT-NL niet alle datasets openbaar maken. ‘Alle datasets die we publiek mógen maken, worden volledig toegankelijk. Daarnaast beschrijven we de metadata van alle datasets uitgebreid in zogeheten datasheets. Die informatie kan iedereen inzien. Mensen kunnen een eigen deal sluiten met de dataleverancier als ze de data ook graag willen gebruiken. We onderzoeken mogelijkheden om de gesloten datasets toch toegankelijk te maken voor onderzoekers en toezichthouders, maar uiteindelijk hebben de datarechthebbenden het laatste woord. Je wil je eigen bedrijven ook beschermen en sterk maken. Ik heb dus liever dat DPG ons van nieuws voorziet dan Fox News, maar dan moeten we wel zorgen dat DPG kan blijven bestaan.’
Ook Selmar Smit van TNO, een van de initiatiefnemers van GPT-NL, is enthousiast: ‘We zijn trots op deze samenwerking. Dit is een krachtig signaal dat AI ook ontwikkeld kan worden in lijn met publieke waarden en auteursrecht. Het is mooi om te zien dat nieuwsuitgevers zich hiervoor inzetten.’
Lees ook: