Data en ai
Interview

GPT-NL: recht in de leer

Saskia Lensink | Beeld: TNO

We hebben zo veel mogelijk verschillende Nederlandse AI-initiatieven nodig, stelt Saskia Lensink, productmanager van GPT-NL. De komst van het Nederlandse ethische taalmodel, hoe belangrijk ook, kan nooit zaligmakend zijn.

Verwachtingen

Het kan verkeren. De aankondiging dat TNO, SURF en het NFI een ethisch verantwoord taalmodel ontwikkelen, riep in 2023 behalve enthousiasme ook veel kritiek op. 13,5 miljoen euro had het kabinet ervoor over, een schijntje in verhouding tot de budgetten waarover Big Tech beschikt. Toen de Chinese startup DeepSeek in januari 2025 liet zien dat het bouwen van een taalmodel ook mogelijk is met minder middelen (maar nog altijd met veel diepere zakken), namen de verwachtingen toe. Feit is dat veel overheden hunkeren naar een taalmodel dat aansluit bij de Europese wet- en regel­geving en publieke waarden. Hoelang moeten ze nog wachten op GPT-NL?

‘Het is sowieso niet slim om te wachten’, waarschuwt Saskia Lensink, productmanager van GPT-NL bij TNO, maar even. ‘Ga vooral alvast experimenteren met de technologie. Kijk of je er mooie dingen mee kan doen, maar zorg wel dat je niet vastzit aan één bepaalde leverancier of aan één bepaald model.’ Een mooi voorbeeld van het creëren van meerwaarde met generatieve AI is wat haar betreft chatbot Guus van de gemeente Goes. Zulke experimenten zijn hard nodig. ‘Stel, GPT-NL doet het straks fantastisch, dan nog zit er geen knop op waarmee je meteen meerwaarde creëert voor een overheid.’

Stel, GPT-NL doet het straks fantastisch, dan nog zit er geen knop op waarmee je meteen meerwaarde creëert voor een overheid.

Slag om de arm

In principe zou er eind van dit jaar een werkend taalmodel beschikbaar moeten zijn, al houdt Lensink wat slagen om de arm. Het verzamelen van data voor GPT-NL liep tot en met eind april 2025. Momenteel worden de data klaargemaakt voor het trainen van het model. In de zomer vindt de training plaats. Daarna is het tijd om te finetunen en te testen in use cases. ‘Wanneer het echt kan worden gebruikt, hangt af van wat er uit de tests komt’, zegt ze. ‘Stel dat het model veel hallucineert en slechte output heeft, dan is het misschien wel beschikbaar, maar dan is het wellicht verstandiger om te wachten op een volgende release.’

De voortgangsrapportage die eind 2024 verscheen, windt er geen doekjes om: niet alle doelen zijn behaald. Wat was er moeilijker dan verwacht?
‘We hebben te maken met een veelheid aan regels. Het gaat over verschillende juridische vakgebieden, van de AVG tot het intellectueel eigendomsrecht, en de interactie daartussen. Ook zitten er bepaalde voorwaarden aan de subsidie. Bovendien willen we het netjes doen en de data niet zomaar ergens vandaan plukken, maar met data-eigenaren in gesprek gaan om tot een deal te komen. Veel waardevolle data die een toevoeging kunnen zijn voor het trainen van het model zitten bij commerciële partijen. Die geven hun data begrijpelijkerwijs niet zomaar gratis weg.’

Data vrijgeven

Ook publieke partijen kunnen hun data niet zomaar vrijgeven. Zeker bij de overheid bevindt de data zich vaak in silo’s. Er moeten interne gesprekken worden gevoerd, juristen geraadpleegd, processen doorlopen. Lensink: ‘Al zit er heel veel bereidheid, op een gegeven moment houdt het op.’

Kortom, er moet iets tegenover staan. Daarom wordt gewerkt aan een licentieovereenkomst. Het idee is dat organisaties (ook overheden) een fee betalen voor operationeel gebruik van het taal­model. Een deel van de inkomsten die daaruit voortkomt, vloeit terug naar de instandhouding van het model, een ander deel belandt via een verdeelsleutel bij de datagevers. Ook voor GPT-NL zelf is het belangrijk dat het geld opbrengt. ‘We kunnen niet eeuwig aan een subsidie-infuus hangen. Het moet bestendig zijn.’ Voor onderzoekers en toezichthouders komt er een researchlicentie, waarvoor mogelijk een symbolisch bedrag wordt gevraagd. Zij ‘betalen’ met feedback op het model.

We kunnen niet eeuwig aan een subsidie-infuus hangen. Het moet bestendig zijn.
Collectebus met naam GPT-NL erop

Te weinig Nederlandse data

Al langer was duidelijk dat GPT-NL het niet gaat redden met vijftig procent Nederlandstalige data, zoals oorspronkelijk de bedoeling was. ‘Er zijn te weinig Nederlandse data open of onder bepaalde licentievoorwaarden te krijgen’, zegt Lensink. Het deel Engelse data is daarom wat groter, ook omdat veel commentaar bij code in het Engels is. Een deel van de Engelstalige data, maar ook Duitse en Scandinavische data, wordt vertaald naar het Nederlands. ‘Daarmee hebben we een stukje extra data in het Nederlands, uit culturen die erg op ons lijken.’

Overheden denken graag mee, benadrukt Lensink. ‘Eén van de eersten die aanklopten was de dienst publieke communicatie van de overheid, die toegang heeft tot veel datasets en ons daarbij wil helpen. We zijn ook in gesprek met partijen die helpen met het ontsluiten van overheidsdata, zoals Open State Foundation.’

Licenties en afspraken

Vanwege licenties en afspraken met derden kan GPT-NL niet alle datasets openbaar maken. ‘Alle datasets die we publiek mógen maken, worden volledig toegankelijk. Daarnaast beschrijven we de metadata van alle datasets uitgebreid in zogeheten datasheets. Die informatie kan iedereen inzien. Mensen kunnen een eigen deal sluiten met de dataleverancier als ze de data ook graag willen gebruiken. We onderzoeken mogelijkheden om de gesloten datasets toch toegankelijk te maken voor onderzoekers en toezichthouders, maar uiteindelijk hebben de datarechthebbenden het laatste woord. Je wil je eigen bedrijven ook beschermen en sterk maken. Ik heb liever dat DPG ons van nieuws voorziet dan Fox News, maar dan moeten we wel zorgen dat DPG kan blijven bestaan.’

BV Nederland

Veel universiteiten hebben in de loop der jaren mooie datasets en databases opgebouwd, die echter niet mogen worden gebruikt voor commerciële doeleinden. ‘En dat is precies wat wij wel doen. We maken GPT-NL niet alleen voor onderzoeksdoeleinden, maar ook voor de BV Nederland.’ Het roept de vraag op of er geen apart taalmodel voor onderzoek zou moeten komen. ‘Dat hebben we inderdaad overwogen, maar we kunnen dat niet realiseren binnen het budget en de tijd die we hebben. We geven voorrang aan iets wat breed beschikbaar kan zijn.’

Daarom juicht ze het toe als er meerdere initiatieven ontstaan. Een belemmering daarbij is dat subsidieverstrekkers redeneren dat GPT-NL er al is. ‘Dat is echt een gemiste kans, want je moet wel op meerdere initiatieven inzetten. Dit is maar één project, één manier om dingen te doen.’

Elke dag loopt ze tegen ingewikkelde keuzes aan waarop geen eenduidig antwoord mogelijk is. Hoe recht in de leer moeten ze zijn met GPT-NL? ‘De geopolitieke situatie zorgt ervoor dat mensen heel kritisch zijn. Als Europa de welvaart in stand wil houden, dan moet het verdienvermogen omhoog. Sommigen vinden Europa veel te braaf en te naïef om dat voor elkaar te krijgen. Ja, het is een worsteling. Maar wat is het alternatief? Zelfs als iedereen over vijf jaar alleen nog DeepSeek op zijn apparaten heeft staan, dan hebben wij het in ieder geval geprobeerd.’

Dit artikel werd gepubliceerd in iBestuur Magazine #54

Een (online) abonnement op iBestuur Magazine is gratis voor voor bestuurders, beslissers en beleidsmakers binnen de publieke sector die betrokken zijn of zich betrokken voelen bij de i-overheid.

Meer informatie en abonneren

Lees ook:

Plaats een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren