Vorige maand schreven verschillende media over een onderzoek van het CBS naar de relatie tussen inkomen en de kans om te overlijden aan corona. "De Volkskrant":https://www.volkskrant.nl/nieuws-achtergrond/gezondheidskloof-nog-duidelijker-door-corona-arm-sterft-twee-keer-zo-vaak-als-rijk~b9bc978ba/ vatte het samen als: ‘arm’ sterft twee keer zo vaak als ‘rijk’. Statistisch juist, de achterliggende werkelijkheid is complexer. Steeds vaker laten we de data spreken zonder de taal te begrijpen, met alle risico’s van dien.
Data is slechts een extra perspectief om naar de wereld te kunnen kijken, en geen vervanging van gezond boerenverstand.
Het CBS onderzoek laat zien dat inkomensverschillen een effect hebben op de kans om te overlijden aan corona. Het onderzoek laat echter ook zien dat deze ongelijkheid in eenzelfde mate ook speelt bij andere doodsoorzaken. De conclusie dat arm twee keer zo vaak sterft als rijk is dan ook niet onjuist, maar het geeft wel een vertekenend beeld door de relatie met corona te benadrukken.
Tegelijkertijd worden dit soort beelden wel opgepakt om beleid op te formuleren. Data krijgt daarbij een steeds prominentere rol. Wat niet te vatten is in statistiek wordt dan al snel niet meer meegenomen en wat rest wordt vaak verkeerd geïnterpreteerd. Soms ontbreken zelfs de meest basale statistische vaardigheden en worden correlatie en causaliteit regelmatig verward.
Recent ontstond bijvoorbeeld ophef over de Leefbarometer van het ministerie van BZK. Hierin wordt een negatief verband gelegd tussen de leefbaarheid in een wijk en het aandeel niet-westerse migranten. Statistisch juist, maar het zegt niets over oorzaak en gevolg. Het risico ontstaat echter dat gemeenten – die dit instrument gebruiken voor het maken van beleid – dit verband aangrijpen om beleid te maken in de veronderstelling dat het één leidt tot het ander. Een ander risico is dat gemeenten het verband simpelweg ontkennen en gebiased noemen. Door het ontkennen van dit soort verbanden gaan ze niet weg. Het zijn juist aanknopingspunten voor onderzoek naar de echte oorzaken om zo tot een betere en integrale aanpak te komen. Duiding van data is daarbij cruciaal.
Die duiding laat vaak nog te wensen over. Witte vlekken in de data worden opgevuld met aannames en verpakt als datagedreven inzichten. Zo wordt in het Volkskrantartikel in een paar zinnen de link gelegd tussen armoede, stress en als gevolg daarvan aantasting van het langetermijndenken waardoor arme mensen eerder geneigd zijn een snelle hamburger te bestellen. Wellicht is dit de verklaring waarom arm eerder sterft, maar er zijn nog meer hypothesen denkbaar die een aannemelijke verklaring bieden.
De rol van de media is daarbij ook niet te onderschatten en soms zelf dubieus. Ongenuanceerde krantenkoppen en scoringsdrang laten onvoldoende ruimte voor goede analyses. Toch zijn het vaak de krantenkoppen die het sentiment bepalen, de politieke agenda en daarmee het beleid.
Om als overheid tot effectief datagedreven beleid te komen is het belangrijk onderscheid te kunnen maken tussen wat de data zegt, wat de werkelijkheid laat zien en de mogelijke verklaringen daarvoor. Deze duiding wordt steeds belangrijker en stelt nieuwe eisen aan de datavaardigheden binnen de organisatie en het vermogen om kritisch te reflecteren op de resultaten van data-analyses.
Het gebruik van data biedt enorme kansen om tot betere interventies te komen en om maatschappelijke opgaven effectief aan te pakken. Data is daarbij echter slechts een extra perspectief om naar de wereld te kunnen kijken, en geen vervanging van gezond boerenverstand.
Christian Verhagen is senior adviseur bij Verdonck, Klooster & Associates en publiceert regelmatig over data en technologie in de publieke sector.