Onderzoek doen naar overheidsdienstverlening is één, maar belangrijk is ook om het gebruikte model te toetsen.
Vorig jaar presenteerde het ministerie van Binnenlandse Zaken en Koninkrijksrelaties (BZK) de Agenda Digitale Overheid NL DIGIbeter. Ik ben door het ministerie gevraagd onderzoek te doen naar het oordeel van burgers en bedrijven over de dienstverlening, in de context van NL Digibeter. In het eerste deel van mijn blogserie hierover ging ik in op het onderzoeksmodel, het oordeel over dienstverlening en de onderliggende dimensies. In dit tweede deel ga ik in op de toets van het model als geheel en de implicaties van de resultaten.
De headlines? Wil je de (ervaren) kwaliteit van dienstverlening verbeteren, richt je dan op aspecten die te maken hebben met veiligheid en vertrouwen. Wil je burgers tevreden maken, focus dan op de vormgeving van de diensten.
Het model
In een notendop; op basis van de literatuurstudie en uitgevoerde focusgroepen, kwamen we tot een (hybridei) kwaliteitsmodel met twee uitkomstvariabelen: de ervaren kwaliteit van dienstverlening en de tevredenheid met deze dienstverlening. Deze variabelen worden beïnvloed door een viertal dimensies die elk weer uit een aantal onderliggende kwaliteitskenmerken bestaan (zie het vorige deel voor een overzicht). Daarachter vinden we een aantal kenmerken van de persoon, zoals leeftijd, opleiding en geslacht. Het uiteindelijke model dat de basis vormde voor het (kwantitatieve) onderzoek zag er als volgt uit:
(Klik op illustratie voor vergroting)
Modeltoets
In het kwantitatieve deel van het onderzoek zijn 3702 respondenten, bevraagd over hun oordeel ten aanzien van de overheidsdienstverlening. Dit grote aantal respondenten stelt ons niet alleen in staat om het oordeel op groepsniveau grondig te meten, het creëert ook de kans om het model als geheel grondig en diepgaand te toetsen.
Het model is bedoeld om betrouwbare, valide en generaliseerbare uitspraken te kunnen doen over de kwaliteit van de overheidsdienstverlening. Dit betekent dat a) de vier kwaliteitsdimensies goed moeten samenhangen en dat de onderliggende aspecten gezamenlijk de dimensie goed representeren en b) het model als geheel een goede voorspellende waarde heeft en zonder teveel (fout)marge een goede weergave geeft van de realiteit.
Aan beide voorwaarden wordt voldaan. De betrouwbaarheid van de dimensies is goedii. De analyse van de data laat zien dat het model goed blijkt aan te sluiten bij de verzamelde dataiii. Wel valt op dat het onderscheid tussen burgers en bedrijven (rol), geen rol speelt in het model. Mediagebruik1 is een indicator2 voor de digitale vaardigheden van burgers en bedrijven. In de modeltoets is er een sterke afhankelijkheid tussen kwaliteit en tevredenheid, met beide variabelen als belangrijkste voorspellers voor de andere. Kwaliteit geldt hierbij als meer belangrijke voorspeller voor tevredenheid dan andersom. Het gewogen oordeel3 over de vier dimensies is een significante voorspeller voor zowel kwaliteit als tevredenheid.
Om het model te toetsen is eerst een lineaire regressie uitgevoerd om te zien welke van de variabelen het oordeel het beste voorspelt. Die analyse laat zien dat kwaliteit en tevredenheid elkaar respectivelijk sterk beïnvloeden. Daarnaast blijkt dat de vier dimensies een significante rol spelen. De persoonskenmerken hebben een kleinere (maar wel significante) invloed. Hoewel deze lineaire (enkelvoudige) regressies een goede indicatie geven van de invloed van onafhankelijke variabelen op afhankelijke variabelen, er is een tweetal problemen met dit type analyse:
1. Onderlinge samenhang
De eerste is de samenhang tussen variabelen. Waar een regressiemodel er vanuit gaat dat variabelen onafhankelijk zijn, sluit dit meestal niet aan bij de realiteit.
2. Accuraatheid
Regressiemodellen richten zich veelal op het verklaren van spreiding in data (de verklaarde variantie). Hoewel het interessant is om te weten hoe spreiding in antwoorden op een variabele verklaard kunnen worden is het vaak meer relevant om te weten met welke zekerheid een bepaald antwoord voorspeld kan worden.
Nieuwe typen modellen, gebaseerd op machine learning, doen precies dat. Vooral gradient boosted decision trees worden daarbij steeds vaker gebruikt in data science om betere voorspellingen te doen over bepaalde fenomenen. Groot voordeel van deze aanpak is dat ze ons in staat stellen de interacties tussen alle variabelen in staat te stellen en daarnaast meer gericht te kijken naar de voorspellende waarde van de data.
Resultaten
De resultaten voor beide modellen zien er bemoedigend uit. De accuracy van beide modellen zit rond de 62-64 procent. Dit geeft aan hoe zeker de voorspelling van een antwoord op basis van de inputvariabele is. Een lage RMSE (<1 in dit geval) geeft aan dat de foutmarge in het model laag is
Kwaliteit | Tevredenheid | ||
Accuracy | 62,52% | 64.34% | |
Root Mean Squared Error (RMSE) | 0.994667 | 0.977235 |
Met andere woorden, we kunnen, op basis van ons onderzoek met ongeveer 63 procent zekerheid voorspellen welk oordeel de respondenten geven over de dienstverlening, al naar gelang hun antwoorden en kenmerken. Dat moet ons ook in staat stellen te zien welke variabelen nou precies van invloed zijn op de kwaliteit en tevredenheid. De toets van het model laat zien dat de verschillende variabelen de ervaren kwaliteit van en tevredenheid met overheidsdienstverlening bepalen. De figuur laat de (relatieve) invloed van de verschillende variabelen zien.
(Klik op illustratie voor vergroting)
Wat we zien is interessant. De volgende zaken vallen op:
- Er is inderdaad een sterke relatie tussen tevredenheid en kwaliteit. Als mensen positief zijn over de kwaliteit, zijn ze ook meer tevreden (en vice versa).
- De vier dimensies leveren een belangrijke bijdrage aan het oordeel, maar op verschillende manieren:
a) Kwaliteit
Wordt primair bepaald door veiligheid en vertrouwen, gevolgd door de vormgeving van dienstverlening, hulp en ondersteuning en toegankelijkheid.
b) Tevredenheid
Wordt achtereenvolgens bepaald door vormgeving van dienstverlening, toegankelijkheid, hulp en ondersteuning en dan veiligheid en vertrouwen. - De rol van persoonskenmerken is minder belangrijk. Leeftijd speelt de grootste rol, gevolgd door mediagebruik.
Wat kunnen we hiermee?
De resultaten van het onderzoek laten zien dat de meerderheid van de respondenten positief is over kwaliteit van dienstverlening en veel kwaliteitsaspecten zijn goed op orde. Wel is er ruimte voor verbetering. Het investeren in persoonlijke (zoals reeds onderdeel van NL DIGIbeter) en meer eenvoudige dienstverlening biedt daarmee op dit moment de meeste verbeterpotentie.
Daarnaast blijkt dat kwaliteit én tevredenheid samen het eindoordeel over dienstverlening bepalen. Verder worden deze door verschillende factoren bepaald. Dit biedt kansen, in het beleid, om bijvoorbeeld meer gericht te sturen op verbetering van kwaliteit van dienstverlening of tevredenheid daarmee. Zo kan het oordeel over de kwaliteit van dienstverlening verbetert worden door te investeren in aspecten die te maken hebben met veiligheid en vertrouwen. Wil je burgers vooral tevreden maken, richt je dan op het ontwerp van diensten en toegankelijkheid.
Met andere woorden: verschillende kenmerken leiden tot verschillende uitkomsten. Dat betekent bijvoorbeeld voor overheden dat ze goed moeten nadenken over wat ze nou precies willen weten wanneer ze een klanttevredenheidsonderzoek uitvoeren. Verder geeft het onderzoek zoals we dat gedaan hebben voor BZK precieze handvatten ter verbetering. Hopelijk gaan we daarvan de komende jaren een bijdrage zien in het oordeel over dienstverlening van burgers en bedrijven in Nederland.
In het derde deel van deze serie wat andere relevante uitkomsten en de bredere implicaties. Dat derde deel wordt over enkele weken op deze site geplaatst.
Meer weten over het model en de aanpak van het onderzoek? willem[at]pieterson[dot]com
Willem Pieterson is onder meer verbonden aan het Center for eGovernment Studies
1 Zie Error! Bookmark not defined.
2 Digitale vaardigheden zijn niet direct gemeten, vandaar dat mediagebruik als proxy gebruikt wordt.
3 Waarbij gewogen oordeel in dit geval verwijst naar de combinatie tussen gepercipieerd belang en oordeel. Zie rapportage literatuurstudie.
[I] We gebruiken de term hybride om aan te geven dat het geen zuiver wetenschappelijk model is, maar is gestoeld op inzichten uit de wetenschappelijke, praktische en beleidsliteratuur, daarnaast bleek het niet mogelijk alle geplande variabelen op te nemen in het onderzoek.
[II] Dim 1: α=0.86, Dim 2: α=0.86, Dim 3: α=0.92 , Dim4: α= 0.83[
[III] Het is zowel als enkelvoudig lineair regressiemodel en als gradient boosted treemodel getoetst. Die laatste resulteert voor kwaliteit in een RMSE=0.994667, accuracy=62.52% en voor tevredenheid in een RMSE=0.977235, accuracy=64.34%
Mooie onderbouwing en uitleg over het model. Kwaliteit wordt denk ik vooral uitgelegd als kwaliteit van het dienstverleningsproces (en minder als kwaliteit van het resultaat of product?) Wat is eigenlijk de gebruikte definitie van dienstverlening? Voor de democratische processen en de bestuurlijke besluitvorming is het toch lastig om over dienstverlening te spreken?