Data en ai
Blog

De kwaliteit van data

Veel dataprojecten binnen de overheid struikelen nog voor ze begonnen zijn. Niet vanwege privacy bezwaren of haperende technologie, maar simpelweg door kwalitatief onvoldoende goede data. Tijd om eigenaarschap en rentmeesterschap op het gebied van data te organiseren binnen alle overheden.

Besturing en verantwoordelijkheden rond data moeten duidelijk zijn en worden belegd.

Recent publiceerde de Algemene Rekenkamer het onderzoeksrapport ‘Een onzichtbaar probleem’ over het gebrek aan kwaliteit van data over milieucriminaliteit en -overtredingen. Het rapport concludeert dat er sprake is van een serieus, maar onzichtbaar probleem dat niettemin tastbare gevolgen heeft. De handhaving wordt belemmerd en criminelen komen weg door tikfouten, onjuiste en onvolledige registratie.

Dat dit als een onzichtbaar probleem wordt ervaren is veelzeggend. Veel organisaties weten immers dat de kwaliteit van hun data te wensen overlaat. Toch wordt dit zelden uitgesproken of aangepakt. Het is soms ook ongemakkelijk en voelt het als het buiten hangen van de vuile was. Liever wordt gesproken over de innovatieve dataprojecten binnen de organisatie. Er wordt dan ook volop geïnvesteerd in deze projecten. Dat doet echter niets af aan het oude principe garbage in is garbage out, dat nu meer dan ooit relevant is.

De kwaliteit van data wordt echter steeds belangrijker. Zeker in ketens waar vertrouwd wordt op de data die wordt gedeeld voor de ontwikkeling en uitvoering van beleid. Meest in het oog springend is het coronabeleid waarbij de dagelijkse cijfers uit verschillende bronnen leidend zijn voor het aanscherpen of versoepelen van de maatregelen. Maar data is op veel meer terreinen leidend geworden in de besluitvorming. Bijvoorbeeld bij toezicht, opsporing en handhaving of het afhandelen van processen. Slechte data leidt daarbij tot slechte beslissingen en zeer hoge kosten.

Inzicht in de kwaliteit van bronnen en registers is daarom cruciaal. Dit begint bij een goed begrip van datakwaliteit en eenduidig taalgebruik. In het Verenigd Koninkrijk heeft de overheid daarom een framework geïntroduceerd om datakwaliteit zichtbaar te maken, te begrijpen en te verbeteren. In Nederland krijgt dit initiatief navolging en wordt onder andere vanuit de NORA gewerkt aan een Raamwerk Gegevenskwaliteit. Ook is er sinds begin dit jaar een Meldpunt Fouten in Overheidsregistraties om burgers en bedrijven te helpen fouten te corrigeren.

Om de kwaliteit van data zichtbaar te maken is echter ook eigenaarschap nodig. Besturing en verantwoordelijkheden rond data moeten duidelijk zijn en worden belegd. Zolang niemand zich eigenaar voelt van de data blijft datakwaliteit een onzichtbaar probleem zonder oplossing. Dataprojecten blijven daardoor struikelen. Of erger nog, en slechte data sijpelt ongemerkt door in beleid en beslissingen.

Het is daarom tijd om eigenaarschap en rentmeesterschap op het gebied van data te organiseren binnen alle overheden. Om de kwaliteit van de belangrijkste data – die vaak kritiek is voor de uitoefening van publieke taken – zichtbaar te maken en te verbeteren. Een volgende stap moet vervolgens zijn om dit ook in ketens en over de verschillende organisaties heen te organiseren. Wellicht wordt het dan ook tijd voor een CDO Rijk.

  • Stephan Preeker | 15 maart 2021, 14:25

    Beste Christian, U slaat de spijker op zijn kop. Het grootste deel van mijn tijd als software / data engineer ben ik helaas bezig om data om te vormen, combineren en verschonen tot producten waar beleids-medewerkers wat mee kunnen.

    En ik verbaas me over de kwaliteit en organisatie rondom data. Neem bijvoorbeeld de SBI (standaard bedrijfsindeling) codes van het CBS. De SBI codes die in het handelsregister staan veranderen niet mee als het CBS ze verandert. Een gemeente heeft goede SBI codes en Handelsregister gegevens nodig en moet deze zelf maar opschonen. Wie is er verantwoordelijk? CBS?, KvK?, de bedrijven zelf?

    Een ander voorbeeld: De energietransitie: Data over energie verbruik wordt per postcode 6 verspreid. Postcodes zijn geen goede geografisch afgebakende gebieden. In de uitvoering is de open netbeheerders data slecht te gebruiken en te matchen met gebouwen. dego.vng.nl hier doen we een poging om voor de plannen makers data zo goed mogelijk weer te geven.

Plaats een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren