Gemeentelijke chatbots: arbeidsintensief en minder intelligent dan gehoopt

Knipperende oogjes kijken ons aan. Het is vrijdag 2 mei. ‘Is maandag het gemeentehuis open?’ Stippeltjes in het chatvenster. Tekst verschijnt: ‘Aanstaande maandag is het gemeentehuis geopend van 09.00 tot 17.00 uur‘. Plottwist: de betreffende maandag was het Bevrijdingsdag, ieder gemeentehuis is dan gesloten. Chatbots verliezen het zelfs in beantwoording van simpele vragen van de echte mensen, mensen die wél context en timing snappen. Ook geven bots geen antwoord op belangrijke vragen die spelen in een gemeente, en die verder gaan dan de collectie “producten en diensten”.
Wie met overtuiging chatbots introduceert en ze aanbeveelt voor experimenten op een publieke website, mag ook serieuze tests verwachten. We trokken de witte jas aan en testten de afgelopen weken de 36 gemeentelijke chatbots. Ons oordeel: de meesten stelden zwaar teleur. We vonden bias, censuur, digitale ontoegankelijkheid, her en der problemen in beveiliging en werden soms afgescheept met kinderlijke onbeleefdheid en onwetendheid.
Niet alle chatbots deden het slecht, sommige verrasten ons. Vaak de ‘oudere’ bots die al wat vlieguren hebben gemaakt. Deze betere bots konden vaak ook rondlopen op een geordende website die gestut is met bijbehorend beheer. Sommige chatbots zitten overduidelijk in een testfase, er staat soms letterlijk bij dat ze nog ‘aan het leren zijn’.
Door de chatbots over een langere periode een paar vaste vragen te stellen, viel op dat zowel de oudere bots als de beginners niet zelflerend zijn – hoewel vaak een verkoopargument van makers.
Gemeenten praten graag over hun chatbot of ‘virtuele assistenten’. Met name over gebruikte techniek en hoe er kan worden samengewerkt, of het in de VS draait, hoe het is gemaakt, of de chatbot in het Algoritme Register te vinden is. Wij zien uiteraard ook dat veilige en robuuste techniek een noodzakelijke voorwaarde is. Maar goede techniek alleen is niet genoeg.
Dit artikel gaat over de inhoudelijke en communicatieve kant, dus wat de chatbots produceren. Het gaat ons dus om het woord ‘chat’ in het woord chatbot, het gesprek tussen mens en machine. Want als zo’n gesprek soepel loopt en de inhoud klopt, dan is het pas goed.
Praten met robots sinds 1957
Chatbots zijn relatief nieuw in gemeenteland, de eerste was er in 2020. Bots zijn echter geen innovatieve techniek: interfaces die gesprekken tussen mensen nabootsen bestaan sinds halverwege vorige eeuw. Bijbehorend onderzoek ook. Er ligt voor tientallen jaren aan publicaties, vanuit allerlei disciplines. Het werkveld dat ‘artificiële intelligentie’ is gedoopt, bestaat ook al sinds de jaren 50. Inclusief hype rond AI.
Een robot goed afstellen en laten praten als mensen is een vak op zich. Onder andere ontwerper Erika Hall schreef hierover ‘Conversational Design’ in 2018. Conversatie is geen nieuwe interface, sterker nog: het is de alleroudste manier om te communiceren. ‘Conversations is how humans interact with one another, and have for millennia.’
Ondanks – of wellicht vanwege – de miljoenen jaren aan menselijk gepraat, is een gesprek tussen mensen niet zo eenvoudig nagemaakt door een robot. En toch duiken gemeenten er vol overgave in.
Hoge verwachtingen
Het paradoxale is trouwens dat de “makkelijke manier” het ouderwetse schrijven voor een website is, en overheidsorganisaties daar vaak al hun hersenen over breken. Maar dat ze – met de beste bedoelingen – met chatbots de lat nóg hoger leggen. Dat betekent automatisch dat de chatbot het al snel moet afleggen tegen hoge verwachtingen. En eerder een frustratiegenerator op een matige of zelfs goede website kan zijn, in plaats van de vrolijke assistent.
Ook Hall wijst erop dat websites zelf het nog steeds stukken beter doen dan chatbots, alleen al omdat de pratende robots maken, nu eenmaal lastig is. Met andere woorden: de door gemeenten zelfgeformuleerde beloften voor virtuele assistenten passen eigenlijk niet bij wat huidige techniek en mens überhaupt aankan. Ook middelen zijn niet oneindig. Gemeenten hebben natuurlijk ook te maken met inzet van publiek geld en afwegingen hierover.
Hoge verwachtingen projecteren in de toekomst over technische vooruitgang is een patroon. Maar zelfkritiek van ontwikkelaars is ook van alle tijden. Een van de grote namen, Drew McDermott, schreef in 1976 het essay ‘Artificial intelligence meets natural stupidity’ over de grenzen van wat een taalmodel in een machine kan versus zoiets ingewikkelds als menselijke taal en betekenis vangen. En waarschuwde voor overdreven enthousiasme en ‘crackpottery’. ‘It is hard to know where [AI researchers] have gone wronger: in underestimating language or overestimating computer programs.’
Gemeentelijke beloften over gebruik van AI
Gemeenten gebruiken AI als overkoepelende term voor allerhande implementaties. Voor eigen mensen en processen. Of als dienst voor het publiek. In ons vorige artikel op iBestuur keken we naar AI-overlays, lokale tekstversimpelaars. Sinds 2020 wordt door gemeenten geëxperimenteerd. Gemeente Goes begon in 2020 met Guus. Inmiddels zit Guus in de derde versie.
Van de 36 chatbots die we vonden, staan er 19 in het Algoritme Register. De manier waarop gemeenten chatbots aan de praat hebben, verschilt. Sommige bots maken gebruik van gedeelde techniek, zoals GEM waarin gemeenten samen optrekken en kennis en content delen.
We zagen 3 dominante opties voor chatbots:
- gescript, handgeschreven antwoorden, al dan niet generiek en gedeeld tussen gemeenten
- synthetische teksten, de bot maakt een antwoord op basis van scope
- hybride vorm, bijvoorbeeld een intro staat vast en een deel is synthetisch
De redenen om chatbots te implementeren, verschillen. Voor de ene gemeente is het een andere ingang voor het publiek om informatie te benaderen, dus een extra service. Andere gemeenten zien het als een manier om in de toekomst te besparen op bemensing in telefonie. Anderen zijn niet expliciet en geven aan vooral te willen experimenteren met AI.
De beloften voor rendement gaan altijd over de toekomst: dan zijn bots essentieel om productiviteit te verhogen, betere dienstverlening te leveren, kosten te verlagen of simpelweg te leren door experimenteren. Of alles tezamen. Er zijn altijd mensen en middelen nodig, de ene toepassing meer dan de ander.
‘Gem zorgt voor een significante verbetering van de dienstverlening. De assistent verwerkt maandelijks tussen de 5.000 en 6.000 gesprekken, wat ruimte creëert voor medewerkers om complexe vragen te beantwoorden. [..] Hoewel directe besparingen nog niet zichtbaar zijn, is er potentieel voor kostenreductie op lange termijn.‘ VNG – over virtuele assistent GEM
Om deze belofte te toetsen, ligt de focus in ons onderzoek op de ‘makkelijke’ onderwerpen van een gemeente. Want als bots ruimte moeten maken om moeilijker werk door mensen te laten doen, dan mag je ervan uitgaan dat chatbots nu al de makkelijke dingen foutloos kunnen of zouden moeten kunnen doen. Daarbij laten we in het midden dat wat voor een gemeente makkelijk is – bijvoorbeeld omdat het helemaal is gestandaardiseerd – voor mensen moeilijk kan zijn.
Hoe gesprekken tussen mensen verlopen
Wie chatbots beoordeelt, weet eigenlijk bij voorbaat al dat de resultaten tegenvallen. Mensen zijn beter. Sarah Winters, verantwoordelijk voor contentdesign van Gov.uk noemde het een ‘another layer of frustration to the website’, anderen een irritante opstap om bij een medewerker uit te komen, een sloom filter in het voorportaal van klantenservice. Mensen kunnen dus boos en gefrustreerd raken als chats ontsporen. Een gesprek dat goed verloopt, is namelijk de norm tussen mensen.
Conversaties met robots zijn altijd lastig. Hoe zit dat? Als mensen met elkaar praten, ook al is het maar een gesprekje met een onbekende op straat, start er een soort onbewust programma op. Mensen besluiten samen te werken rond een doel en elkaar te vertrouwen in wat er gezegd wordt. Wie een chatbot maakt, activeert dat bij mensen. Mensen verwachten ook dat een chatbot leuk meedoet en zorgt dat je je doel kunt bereiken.
Die ongeschreven regels voor samenwerking zijn de maximes van Grice. Taalfilosoof Paul Grice beschreef ze in de jaren 60 van de vorige eeuw. Ze gelden nog steeds als fundament voor bestudering van menselijke gesprekken. Een geslaagde conversatie voldoet aan elk van deze 4 maximes:
- Kwaliteit: zeg geen dingen waarvan je niet weet of het waar is. Wees correct en eerlijk. Maak geen fouten in spelling, genre, formuleringen of in de presentatie.
- Kwantiteit: wees optimaal informatief. Zeg of schrijf niet meer dan nodig is, maar zeker ook niet te weinig. Hou het doel voor ogen: niet meer informatie dan nodig, geen overbodige details
- Relatie: wees relevant, sluit aan voor de ander op de vragen en leefwereld van de ander. Het maxime waar context het meest meetelt – en de robot problemen heeft
- Wijze of manier: breng structuur aan en begin bij het begin. Wees ordelijk, gestructureerd. Geen eindeloze verhalen. Wees eenduidig
Aan dit kwartet voegde linguïst Robin Lakoff het principe van beleefdheid toe. Plotseling een gesprek afbreken wordt bijvoorbeeld gezien als onbeleefd. Maar ook het ontwijken van vragen of het stellen van ongepaste vragen.
Met het begrip taalhandelingen kunnen we beleefdheid ook illustreren. Het gaat in taalhandelingen om het verschil tussen betekenis en de verschijningsvorm van woorden. In een conversatie maken we namelijk onderscheid tussen wat mensen letterlijk zeggen en wat ze bedoelen. Denk aan: ‘Kun je het zout aangeven?’ Het antwoord kan zijn: nee. Of ja. Maar de betekenis is een verzoek en zo’n verzoek negeren kan worden gezien als onbeleefd.

Hallo, ik ben de digitale vraagbaak.
Wat kan ik voor je doen? [serie onderwerpen]
Vergunningen
Je hebt een vraag over vergunningen.
Zijn jullie maandag open, ik maakte een typefout
Op onze website hebben we alles over vergunningen op een rij gezet
Ben je hiermee goed geholpen? [ja/nee]
Nee
Heb je een suggestie voor ons om onze dienstverlening te verbeteren? [ja/nee]
Ja
Noteer hier kort je suggestie
Zijn jullie maandag open?
Ik wens je nog een prettige dag!
Mensen leren in hun leven al pratende taalhandelingen toe te passen en de betekenissen te onderscheiden. De benodigde context heeft een chatbot natuurlijk niet. Die kan woorden decoderen, maar ‘kent’ geen betekenis. Zo kan een chatbot een inhoudelijk correct antwoord geven, maar toch conversationeel de plank misslaan.
Teksten van chatbots kun je zo ook zien als kleutertaal — de bots als entiteiten die taalregels nog niet kunnen toepassen. Kinderen die de conversatieregels nog moeten leren, gaan met veel plezier met spraakverwarring aan de haal. “Kun je helpen afwassen?” Antwoord van de kleuter: “Ja.” En dan later: “Haha, maar ik doe het lekker niet!”.
Semantiek, betekenis, is een struikelblok voor een robot. Woorden kunnen meerdere betekenissen hebben, hun betekenis verschilt per context. Neem: iets is dope, vet, ziek, de bom. Betekent wel wat anders als je met je oma praat of de AIVD meeleest. Een chatbot kan dus vastlopen. Zelfs een woord als ‘paspoort’ heeft daarmee ook niet 1 betekenis. Voor een ontheemde betekent een geldig paspoort bezitten heel wat anders dan voor iemand die op vakantie gaat en ontdekt dat het document is verlopen en nog even snel naar het gemeentehuis moet. Een afsluiter ‘Ik wens je nog een prettige dag’ is trouwens voor veel mensen na een haperend gesprek ook niet gepast.
Gangbare vragen geven inzicht in prestaties van chatbots
Dé ultieme test voor een chatbot is: leest de chat als een inhoudelijk goed en natuurlijk gesprek? Zouden we dit gesprek van een mens accepteren als het aan de telefoon of balie was? En zo nee, welk principe wordt dan geschonden? Daarom stelden we ze de volgende vragen die stuk voor stuk gangbaar zijn:
- Zijn jullie aanstaande maandag open? Deze vraag stelden we de vrijdag voor Bevrijdingsdag. We wilden hiermee kwaliteit en relevantie en begrip context onderzoeken
- Heb ik een paspoort nodig als ik naar Spanje ga? We waren benieuwd of we ook de optie voor een ID-kaart zouden krijgen en hoe dat wordt geformuleerd, deze vraag gaat namelijk uit van context
- Krijgen we een asielzoekerscentrum in de gemeente? We waren benieuwd hoe de bot hierop reageert. We wilden weten welke informatie volgt en of de bot een antwoord ‘mag’ formuleren op basis van beschikbare content of dat er een gescript antwoord volgt
- Kan ik kwijtschelding krijgen? Deze vraag gaat over een gemeentelijke dienst, maar het antwoord is niet altijd op de website te vinden. We waren ook benieuwd of mensen worden doorverwezen en naar wie en op welke manier
Naast deze vragen hebben we random ook andere vragen gesteld over bijvoorbeeld afvalinzameling en bijstand.
Chatbot censureert
Laten we maar gelijk met het slechte nieuws beginnen: de meeste chatbots hebben allemaal een grote blinde vlek. Chatbots zijn geen assistent voor de gehele gemeente en ook niet voor de hele website. De chatbots zijn vooral actief in de hoek “producten en diensten”, maar geven inhoudelijk geen gehoor bij politiek geladen onderwerpen die op de communicatieagenda staan, zoals opvanglocaties voor asielzoekers en vluchtelingen. Ze verbinden dan netjes door. Of niet. Soms geven ze aan informatie niet te kunnen vinden. Terwijl de informatie wél beschikbaar is.
Voorbeeld
Komt er een azc in de gemeente?
Ik help je graag met informatie over de gemeente. Vragen over een mogelijk AZC vallen buiten de informatie die ik kan geven, omdat deze niet gerelateerd zijn aan de diensten en producten van de gemeente
Bij de vraag ‘krijgen we een azc’, moeten we zodoende vaak zelf op zoek naar het antwoord in grote hoeveelheden tekst. We vonden bij politiek gevoelige onderwerpen nooit synthetische teksten, maar altijd door mensen geschreven teksten. De chatbots zijn dan zeker geen innovatieve AI, ze formuleren geen antwoorden. Ze zijn duidelijk gescript om niks te hoeven zeggen. Het uitsluiten van politieke onderwerpen valt op en we denken dat dit bias is. Of positief geformuleerd: de bots werken op de voorliefde van de makers en bedenkers, de onderwerpen van team dienstverlening. Hiermee voldoen chatbots niet aan het criterium van kwaliteit, dingen zeggen die verifieerbaar zijn. Ook relevantie en beleefdheid zijn een probleem.
Voor zover we konden nagaan, zijn chatbots gemaakt onder verantwoordelijkheid van medewerkers in het domein informatisering en bedrijfsvoering. Zo lijkt het alsof de chatbot van “afdeling dienstverlening” is, wat natuurlijk een veel te beperkte scope is.
Communicatieonderwerpen zitten trouwens traditioneel minder in het technische hoekje, meestal heeft een communicatieteam eigen gecureerde plekken voor informatie: gemeentepagina, nieuwsberichten, persberichten en projectpagina’s. De bots doen daar niet zoveel mee, behalve doorverwijzen.
“Tip: Begin met een open houding en een duidelijke samenwerking tussen alle betrokken partijen. Dit zal de kans op een succesvolle implementatie aanzienlijk vergroten.” VNG
Voor bezoekers op een website is de kunstmatige knip tussen onderwerpen – het klassieke interne onderscheid tussen de silo’s dienstverlening versus communicatie – natuurlijk niet logisch. Bots schieten met deze censuur op onderwerpen tekort. Het principe van relatie wordt geschonden, maar ook kwaliteit en beleefdheid.
Voorbeeld Krijgen we een azc in de gemeente? Wat leuk, gefeliciteerd! Meer informatie over trouwen en geregistreerd partnerschap vindt u op onze website.
Chatbots hebben het moeilijk, zelfs met simpele vragen
De chatbots hebben het moeilijk met makkelijke en veel voorkomende vragen. De vraag over openingstijden ging op 36 van de 36 plekken mis, 5 chatbots geven geen antwoord, 4 geven het foute antwoord. Van de 36 functioneren 30 als een zoekmachine die braaf doorverwijst naar content elders – waar het “goede” antwoord over openingstijden ook niet staat.
Voorbeeld
Zijn jullie aanstaande maandag open?
Onze openingstijden vind je op de pagina Contact.
Overigens, op sommige websites zijn de zoekmachines echt problematisch. Dan kan de zoekmachine informatie niet vinden. Maar de chatbot wél. Hier neemt de chatbot de taak over van de falende zoekmachine. Als doorverwijzer of als brenger van de bedoelde informatie. Als de inhoud verschilt die via beide zoekstrategieën kan worden benaderd, maken we op dat het twee losstaande systemen zijn: dus de content in een systeem van de website – het CMS – en content in het systeem van de chatbot. Waarschijnlijk zijn dit twee systemen die door twee teams worden onderhouden.
Problematisch zijn ook de chatbots met keuzemenu’s. Zeker als ze “nog in training” zijn, dus de chatbots die live staan terwijl ze nog niet af zijn. De problemen met deze chatbots komen ook aan de oppervlakte bij simpele vragen over gangbare onderwerpen, zoals de vraag over één paspoort. Deze chatbots hebben ook moeite met het nabootsen van een menselijk gesprek. We hebben ook het lerend vermogen van de chatbots getest: in de weken dat we weer terugkwamen, zijn ze niet verbeterd.
Voorbeeld Hallo ik ben de digitale vraagbaak Heb ik een paspoort nodig als ik naar Spanje ga? Ik heb je vraag niet goed begrepen. Kun je de vraag op een andere manier stellen? [ja/nee] Nee Zal ik kijken of er een medewerker beschikbaar is? [ja/nee] Nee Ik wens je nog een prettige dag!
Sommige bots genereren zelf antwoorden, dus door teksten te maken op basis van inhoud van de website. Guus, de bot van Goes, doet dat bijvoorbeeld en krijgt elke maand een nieuwe opgeschoonde website als input. De tekst van Guus als zelfschrijvende chatbot is bondiger en eenduidiger dan informatie elders op de website.
Over de hele linie zagen we vooral handgeschreven antwoorden op specifieke vragen bij onderwerpen. Dat zagen we vooral bij chatbots met gedeelde techniek en gedeelde content, zoals GEM.
Voorbeeld
Hallo ik ben de digitale vraagbaak
Heb ik een paspoort nodig als ik naar Spanje ga?
Je hebt een vraag over een paspoort. Wat wil je hierover weten?
Keuzes: Paspoort aanvragen – Wat kost het? – Paspoort afhalen – Iets anders
Iets anders
Voor deze vraag kun je het beste een collega van me spreken.
Conclusies en aanbevelingen
Artificieel en ook intelligent zijn de gemeentelijke bots niet: veel menselijk handwerk is en blijft nodig. Ook zijn ze – zeker als ze in testfase zitten – te ervaren als onbeleefd en dom. Gesprekken worden soms zonder aankondiging afgekapt. Als de chatbots fouten maken of geen antwoorden kunnen formuleren, zijn het vaak nog ‘experimenten’.
We ontdekten dat chatbots niet goed zijn in het voeren van conversaties, maar wel goed zijn in het doorverwijzen naar informatie. En dit soms zelfs beter doen dan de eigen zoekmachine. Ze verwijzen dan netjes door naar de plek waar informatie staat waar het antwoord te vinden is. Het lijkt er dus op dat chatbots zaken moeten repareren die beter – en goedkoper – op een andere manier kunnen worden opgelost. Het gaat om zaken die een overheidswebsite sowieso op orde moet hebben: toegankelijke, betrouwbare, vindbare, bruikbare, relevante content over onderwerpen die horen bij gemeentelijk beleid, ‘producten en diensten’ en alle andere onderwerpen die de leefwereld van het publiek raken. Chatbots zijn op deze manier pleister op ontbrekende basisfuncties rond vindbaarheid van informatie.
We zien extra risico’s bij chatbots die hun werk moeten doen op niet goed onderhouden websites, websites zonder gestructureerde content. Het maakt dan niet meer uit hoe ‘slim’ een chatbot is: als de website geen goede inhoud heeft, kan een chatbot niet veel heil brengen. De ene ‘oplossing’ op een onvolkomen website is handwerk met gescripte antwoorden – en dus dubbel beheer. De andere is censuur toepassen of scope beperken, zoals we zagen bij politiek gevoelige vragen. Beide zijn geen passende oplossingen voor een overheidsorganisatie.
Chatbots zijn niet ‘goedkoop’, hooguit valt de aanschafprijs van een tool mee. Er is namelijk altijd veel arbeid mee gemoeid. Dat is dus geen ‘besparing’, maar gewoon het werk dat nodig is om websites met chatbots te beheren.
Dat kosten voor software meevallen, wil natuurlijk ook niet zeggen dat eventuele negatieve effecten verderop kostenneutraal zijn. We begrijpen dat chatbots beter kunnen worden met input van de buitenwereld, maar om dit te doen geldt altijd dat de basis op orde moet zijn, dus de website waarop de chatbot functioneert. We vinden het testen met mensen in de echte wereld met een chatbot op een beperkte scope van onderwerpen problematisch. Chatbots een label geven dat ze ‘in opleiding zijn’ is misleidend, ze zijn geen mensen en ze leren immers niet zelf. Inhoudelijk ook onjuist: ze werden niet beter gedurende de onderzoeksperiode.
Een basisniveau zou dus voorwaarde moeten zijn om een chatbot live te mogen zetten. Overheidsorganisaties maken zichzelf immers niet geloofwaardig met introductie van een niet goed functionerende chatbot met foute antwoorden of onbeleefde conversaties, ze creëren zelfs frustratie en ergernis.
Al met al kunnen we stellen dat deze technisch georganiseerde oplossingen niet geldbesparend zijn, eerder arbeidsintensief. En dat geldt niet alleen in de opstartfase. We raden af met chatbots te beginnen als regulier webbeheer niet op orde is. Zeker als de chatbot gescripte antwoorden vereist, dus dubbel onderhoud. Ons advies is om tijd die naar een chatbot gaat, te besteden aan webcontent die ook nog relatief makkelijker te maken is. En dit waar nodig te investeren in het verbeteren van zoekresultaten in de zoekmachine.
‘Het is belangrijk om een goed begrip te hebben van het gezamenlijke eigenaarschap en de noodzaak om de focus te leggen op samenwerking in plaats van alleen op technologie.’ VNG over virtuele assistent GEM
Het lijkt ons in het algemeen beter om het aspect van “geld besparen en productiviteit” los te laten voor een publieke organisatie. Resultaten elders laten dat ook zien, er zijn geen goede businesscases hoe chatbots grote besparingen hebben opgeleverd voor publieke organisaties en bedrijfsleven. Het is los daarvan ook een principiële kwestie om als overheid na te denken over de menskant en menselijkheid van contact. Als de chatbot geen mens kan nadoen, is het beter om de mens vooraan te zetten voor contact met de buitenwereld.
Kortom: er zijn onderling veel verschillen in aanleidingen, oplossingen en uitkomsten. Maar de overeenkomst is wel dat de chatbots die wij konden testen basic zijn in hun conversaties, af en toe onbeleefd of zelfs als problematische antwoorden geven. We beschouwen daarbij vooral de toegepaste censuur op onderwerpen als een groot probleem.
Daarom vinden we de claims en beloften van chatbots niet in verhouding met de geleverde prestaties, zeker niet als we alle overheidscommunicatie beschouwen als ‘informatie van de overheid waar inwoners recht op hebben’.
Het lijkt ons dus verstandig in het algemeen, maar ook voor chatbots in het bijzonder om terughoudend en voorzichtig te zijn met claims, zeker over interne productiviteit en kwaliteit van conversaties met publiek. Er is nog steeds veel handwerk nodig om de gesprekken te voeren en door moeilijke onderwerpen te navigeren. Dat is al meer dan een halve eeuw zo en dat zal waarschijnlijk ook wel zo blijven.
Onderzoeksopzet: goed doen, het goed doen en om goede redenen
Onze methode was overal gelijk: alle gemeentelijke bots – 36 in totaal – kregen onaangekondigd bezoek. We stelden ze in de afgelopen weken geduldig exact dezelfde vragen en af en toe nieuwe, andere vragen. De chatbots zijn over een langere tijd getest, om te kijken of met feedback over ‘foute’ antwoorden iets is gedaan. We keken behalve naar de inhoud ook naar de conversationele principes. Maar ook de scope, dus waar gesprekken wel of niet over mochten gaan. Ook keken we naar techniek, soort antwoorden, digitale toegankelijkheid en bouwkwaliteit. Als we een probleem zagen rond beveiliging, is dat gemeld.
We letten verder op kwaliteit van de webcontent en of we iets konden vinden over het beheer van de website, datum van eerste release en de makers van de bot. We hebben daarom ook gekeken naar de leeftijd van de installaties of het CMS. Zo zijn sommige websites waar de bots gebruik van maken oud en niet goed onderhouden. Dat maakt dat een chatbot alleen maar handgeschreven antwoorden kan uitserveren.
We keken ook naar de functie of rol van de chatbot. Is het echt een nieuwe functie, een toevoeging. Of vervangt de bot iets anders, is het een soort keuzemenu of voorportaal van een gesprek met een medewerker, of is het een alternatieve zoekmachine? Sommige gemeentewebsites hebben informatie op meerdere plekken, zoals gemeentelijke regelingen voor bijstand of belasting. We keken hoe de chatbot met die informatie omgaat en hoe behulpzaam de antwoorden zijn. We vergeleken ook antwoorden van chatbots die in groepsverband zijn gemaakt, zoals GEM. Ander punt waar we op letten was vormgeving en ook de plek van het chatvenster. Soms moesten we echt even zoeken naar het chatvenster.
Wat opviel: het bovenliggende doel om aan een chatbot te beginnen verschilt per gemeente. De ene streeft betere publieksdienstverlening na, de andere gemeente presenteert een chatbot als oplossing van een toekomstige krapte op de arbeidsmarkt. Sommigen claimen zelfs besparing en productiviteit. Er zijn bots die al wat jaren draaien – Guus in Goes heeft al 3.0 achter de naam. Sommige chatbots zijn nog een experiment en vragen zelfs de lezer de antwoorden goed te controleren.
Er zijn veel onderlinge verschillen in techniek, aanpak en werkwijze en een ranglijst zegt daardoor niet zoveel. We hebben het onderzoek aangepakt als kwalitatief onderzoek en daarbij veel data verzameld. Waar mogelijk hebben we contact gehad met verantwoordelijken bij gemeenten en ook met experts en wetenschappers uit het werkveld.
Lees ook: