Data en AI | Achtergrond

TNO, NFI en Surf werken aan een nationaal open taalmodel voor AI

Komen de woorden ‘nepparlement’ en ‘knettergek’ en ‘wappie’ ook in het model? Het blijft balanceren op een dun koord.

|Portret Erwin van Eijk TNO|Portret Saskia Lensink TNO — || - Beeld: Shutterstock

26 februari 2024
Europese politiek en beleid

Van onze partners

TNO, NFI en Surf werken aan een nationaal open taalmodel voor AI, een LLM (large language model). Het ministerie van Economische Zaken en Klimaat trekt 13,5 miljoen euro voor het project. Waarom wil Nederland concurreren met fantastische applicaties voor generatieve AI (GenAI) waarin miljarden zijn gestoken over vele jaren van ontwikkeling? En hoe onafhankelijk en inclusief kan een model zijn?

In de subsidieaanvraag staat een aantal redenen voor het ontwikkelen van een Nederlands model:

Transparant, eerlijk en toetsbaar gebruik van AI naar Nederlandse en Europese waarden en richtlijnen; onafhankelijk van commerciële modellen, de ‘digitale soevereiniteit’.
Opbouwen publieke expertise en ervaring met generatieve AI-taalmodellen en stimulans voor Nederlands onderzoek en innovatie.
Opbouw van een open model voor samenwerking en participatie van Nederlandse sectoren en overheden die kennis uitwisselen en toepassingen bouwen.

TNO leidt de bouw van anderhalf jaar, daarna wordt het model aangeboden op de nationale supercomputer Snellius van Surf.

Wat is het belang voor NFI?

Het Forensisch Instituut onderzoekt bewijzen voor criminaliteit; de afgelopen jaren waren dat gigantische hoeveelheden bestanden van gekraakte computers van geheime chatdiensten als EncroChat, Sky ECC en Exclu. Er was zelfs een Europees Horizon 2020 project, Exfiles waarin NFI meehielp aan het kraken van duizenden geconfisqueerde telefoons.

Taalmodellen zijn al jaren onmisbaar voor opsporingswerk.

Erwin van Eijk, hoofd van de digitale divisie bij het NFI

Analyse van terabytes aan data vergt gigantische inspanningen. “Taalmodellen zijn al jaren onmisbaar voor opsporingswerk”, bevestigt Erwin van Eijk, hoofd van de digitale divisie van NFI in Rijswijk. “Mensen kunnen onmogelijk de enorme hoeveelheden data analyseren binnen beperkte tijd. Daarnaast beschermen we met AI-inzet onderzoekers tegen intensieve blootstelling aan traumatiserende inhoud zoals kinderporno.”

De huidige taalmodellen die daarvoor gebruikt worden behoeven verbetering omdat het berichtenverkeer in criminele circuits steeds cryptischer wordt. NFI heeft zelf te weinig middelen voor expansie van modellen. “GPT-NL kan leunen op onze gegevens, algoritmes en expertise en ervaring.” NFI en de politie trainden bijvoorbeeld taalmodel Bert om specifiek taalgebruik in criminele groepen te traceren en doodsbedreigingen te filteren.

Echt Nederlands

Ook TNO doet al jaren onderzoek naar GenAI en taaltechnologie. We spreken met de projectleiders van GPT-NL bij TNO, Selmar Smit en Saskia Lensink. Hun enthousiasme maakt indruk. Maar dan nog: GPT-NL is toch een kaboutertje van 13 miljoen euro tegenover de Amerikaanse miljarden dollars die superieure toepassingen genereren? Smit: “Wij bouwen voor een nu al bestaande behoefte bij instellingen en universiteiten aan applicaties waar Nederland betrouwbaar mee kan werken en die echt Nederlands produceren. Superieur hoeft niet per se te betekenen dat een taalmodel heel goed is in bijvoorbeeld het schrijven van een Sinterklaasgedicht.” Blijft de vraag wat er specifiek beter is aan een Nederlands model. Lensink: “Probeer eens een sollicitatiebrief te laten schrijven door ChatGPT. Zelfs in het Nederlands klinkt het als Engelse tekst. De openingszin luidt ‘Ik wil mijn geweldig enthousiasme uitdrukken voor deze enorme kans bij dit geweldige bedrijf.’ Een tweede reden is dat je wilt weten hoe zo’n taalmodel wordt opgebouwd en tot uitkomsten komt. Amerikaanse Big Tech maakt nu voor ons onnavolgbare keuzes.”

Anderzijds, Nederland is geen eiland. Zowel criminelen (NFI) als academici en ambtenaren communiceren internationaal in het Engels. Smit: “Goed punt. We willen het taalmodel fifty-fifty met Nederlands en Engels trainen.”

We hebben nog behoefte aan bronnen met gebruik van simpel Nederlands.

Saskia Lensink, projectleider bij TNO

Veel beschikbare taal, zeker in academische kringen, is niet eenvoudig. En we weten inmiddels dat veel (jonge) Nederlanders de geschreven taal slecht beheersen. Is dat een probleem? Saskia Lensink: “Inderdaad een belangrijke kwestie. We hebben nog behoefte aan bronnen met gebruik van simpel Nederlands. Immers, er liggen hele mooie use cases voor GPT-NL toepassingen waar Nederland echt iets aan heeft, zoals het vereenvoudigd weergeven van overheidsinformatie.”

Behapbare overheidsinformatie

Kunnen mensen van wie de leesvaardigheid niet volstaat om zich tot de bureaucratie te verhouden straks met hun GPT-NL-assistent vragen: en wat bedoelt u precies? En krijgen ze dan een antwoord dat ze kunnen behappen? Lensink en Smit zouden dat een mooie toepassing vinden, “al helpt die onvoldoende leesvaardigheid niet.”

De trainingsdata moeten hoe dan ook een goede afspiegeling zijn van gebruikt Nederlands, inclusief de ‘afwijkende’ taalvariëteiten. Smit: “We voeren momenteel veel gesprekken over de behoeften en formuleren onze wensen. Willen we bijvoorbeeld een model dat goed kan rappen, dan moet je dus wel taal van raps invoeren.” Suggestie: laat GPT-NL de Nederlandse communicatie van Facebook en X leegtrekken om het model breed te trainen met ‘gewone-mensentaal’. Smit: “Dat mag niet en bovendien zou je hate speech vervolgens moeten uitfilteren. Dat is een constante afweging.”

Experiment

Of ook schuttingtaal een plek krijgt, is zo’n afweging. Immers, ‘digitale soevereiniteit’ betekent enerzijds inclusiviteit voor alle Nederlandse taal, anderzijds zouden beledigingen niet mogen. Je vervalt al snel in censuur. Met de DSA-richtlijn straft Europa platforms die niet streng filteren op bijvoorbeeld discriminerende uitingen. Maar waarden onder de van overheidswege ‘goedgekeurde’ modellen balanceren eveneens op een dun koord. Komen de woorden ‘nepparlement’ en ‘knettergek’ en ‘wappie’ in het model? En wat antwoordt het model straks op de vraag: wie is een echte Nederlander?

TNO deed een leuk experiment: de Stemwijzer door verschillende Amerikaanse AI-apps laten invullen. Wat bleek? De uitslag was een stuk linkser dan de Nederlandse verkiezingsuitslag, terwijl Amerikanen gemiddeld rechtser zijn. Hoe kwam dat? Vooroordeel in de trainingsdata? Smit: “Dat is precies de vraag die we niet kunnen beantwoorden, omdat we geen enkel inzicht hebben in die Amerikaanse modellen. Dat is nu juist de crux. Met GPT-NL willen we dat wel kunnen traceren, uitleggen en eventueel corrigeren…”