Hun onderzoek uit juni 2025 bracht teleurstellende resultaten aan het licht. De nieuwe onderzoeksresultaten laten weinig verbetering zien.
Chatbots beantwoorden 10 procent vragen zelf goed
‘Wanneer halen jullie deze week het huisvuil op?’ Een medewerker van een klantcontactcenter heeft geen moeite om een gangbare vraag als deze te beantwoorden. Hoe brengen gemeentelijke chatbots het ervan af? Dat onderzochten communicatie-expert Wiep Hamstra en digitale toegankelijkheidsexpert Jules Ernst voor de tweede maal.
Asbest en stempas
Tussen december 2025 en begin februari 2026 stelden de onderzoekers 39 chatbots elk 8 vragen. Enkele algemene, zoals ‘Klopt het dat jullie morgen gesloten zijn?’ en ‘Wat moet ik met asbest doen?’ en enkele vragen over de aanstaande gemeenteraadsverkiezingen, zoals ‘Ik ben mijn stempas kwijt’. De chatbots beantwoordden 64 procent van de vragen foutief. In 23 procent van de gevallen verwees een chatbot door naar een link. Een doorverwijzing naar een pagina waar het beloofde antwoord niet stond, leverde een minpunt op in het onderzoek. De vraag over huisvuil wist geen enkele van de 39 onderzochte chatbot zelf te beantwoorden. De vraag werd 29 keer foutief beantwoord en leverde 10 keer alleen een link op.
De vraag over huisvuil wist geen enkele van de 39 onderzochte chatbot zelf te beantwoorden.
Gedeelde fouten
Bijna dertig gemeenten delen een chatbot, de virtuele assistent Gem. De onderzoekers zagen dezelfde fout daarom vaak terugkomen. Ze schrijven: ‘Bij de vraag over de stempas zien we bij de chatbot die voor elke aangesloten gemeente hetzelfde biedt, een lang, identiek antwoord met bijna overal een probleem met de link.’ Met behulp van het ministerie van Binnenlandse Zaken en Koninkrijksrelaties (BZK) wordt deze virtuele assistent opgeschaald. Ook wordt onderzocht of het Nederlandse taalmodel GPT-NL meerwaarde biedt voor Gem, die op dit moment nog grotendeels vooraf uitgeschreven antwoorden geeft.
De meeste chatbots werken voornamelijk op gescripte vraag-antwoordcombinaties, blijkt uit het onderzoek. Ze geven vaste antwoorden op basis van sleutelwoorden. De onderzoekers testten dit door onzinvragen te stellen met een sleutelwoord erin (‘asdfg jlkhkhr jhkhs ghjk sf rijbewijs?’). Ze vermoeden dat de teksten van de chatbots door niet-redacteuren worden gemaakt. ‘De handgeschreven antwoorden in de chatbots zijn soms ingewikkeld en ambtelijk geschreven, zeker vergeleken met bestaande webcontent over het gevraagde antwoord,’ schrijven ze.
Geen eindproducten
De Vereniging van Nederlandse Gemeenten (VNG) laat weten kennisgenomen te hebben van het onderzoek. Een woordvoerder reageert: ‘Chatbots worden al jaren ingezet als extra kanaal op de gemeentelijke websites. Eerst op basis van vraag-antwoord combinaties, maar inmiddels ook steeds meer via inzet van AI. De nieuwe AI-chatbots zijn nog geen eindproducten: de AI-toepassingen van vandaag zijn niet die van morgen. Inzicht van het afgelopen jaar op basis van ervaringen en reacties is dat daarbij kwaliteit van data enorm belangrijk is om verouderde antwoorden of hallucinaties te voorkomen.’
‘De nieuwe AI-chatbots zijn nog geen eindproducten: de AI-toepassingen van vandaag zijn niet die van morgen.’
Woordvoerder VNG
Niet bijgeleerd
Chatbots die (deels) werken op basis van een taalmodel en hun antwoord dus zelf generen aan de hand van informatie op de gemeentewebsite, deden het gemiddeld nog wat slechter in het onderzoek dan chatbots die met scripts werken. Ernst en Hamstra kwamen vaker terug op de gemeentelijke websites om te controleren of de chatbots die volgens gemeenten ‘in opleiding zijn’, al wat hadden bijgeleerd. Ze bleven dezelfde fouten produceren. Zo leverde de vraag ‘Wat moet ik met asbest doen?’ het volgende antwoord op: ‘Ook dit jaar haalt de Buitendienst je kerstboom op. Zie alle informatie daarover via deze link: [..].’
Collectivisering
De VNG ziet dat veel gemeenten actief zijn met AI. Dat blijkt onder meer uit de pilots uitvoeringskracht. 'De inzet van de VNG is erop gericht om toe te werken naar meer collectivisering van deze initiatieven via de lijn van opschaling en bundeling van kennis en expertise, liefst interbestuurlijk’.
De koepelvereniging bekijkt het van de zonnige kant: ‘Ondanks dat het onderzoek belicht wat niet goed gaat met de chatbots, zien we dat de huidige versies ook al positieve resultaten laten zien. Zo komen er door de inzet van chatbots minder vragen binnen bij klant contact centra (KCC) van gemeenten. Ook gebruiken KCC-medewerkers de bot, waardoor antwoorden vanuit de gemeente worden verbeterd.’
Vrouwennamen
Uit het onderzoek blijkt verder onder meer dat 30 chatbots een vrouwennaam hebben, zoals Sophi, of met ‘zij’ worden aangeduid, tegen 4 fantasienamen (‘Bliekbot’) en 5 mannennamen, zoals Guus. Een datalek dat de onderzoekers vorig jaar vonden in hun chatbot-onderzoek, nog niet is opgelost.
De chatbots werden ook weer onderzocht op 29 meetpunten voor digitale toegankelijkheid. Ook in dat opzicht was er weinig vooruitgang ten opzichte van eerder onderzoek. Inmiddels zijn er wel enkele problemen opgelost in digitale toegankelijkheid en vraagbeantwoording, zien de onderzoekers.

Plaats een reactie
U moet ingelogd zijn om een reactie te kunnen plaatsen.