Betere data, beter beleid?

Geen dag zonder nieuws over weer een nieuw onderzoek. Toch kan op veel terreinen beleid nog beter op de feiten worden gebaseerd. Een beter samenspel van overheid, wetenschap en bedrijfsleven kan dit dichterbij brengen. Mits de privacy is gewaarborgd. Want de alarmbellen rinkelen snel.

Analyse van gecombineerde data van KNMI en Rijkswaterstaat maakt het mogelijk om te berekenen in welke mate de wegcapaciteit afneemt bij een regenbui.

Google kan de verspreiding van griep beter voorspellen dan epidemiologen, TomTom geeft actuele file-informatie dankzij analyse van gsm-gegevens en als je data van KNMI en Rijkswaterstaat combineert, kun je berekenen in welke mate de wegcapaciteit afneemt bij een regenbui. Dit kan allemaal dankzij geavanceerde analyses op grote datasets. En dan valt al snel de term Big Data.
“Wij zijn als maatschappij meetbaar geworden, we zijn nu zelf een soort laboratoriumratten vanwege de enorme hoeveelheid data die over ons bekend is én die we zelf via FaceBook, Instagram en dergelijke produceren. We zijn onze eigen Big Brother”, zegt Sander Klous, hoogleraar Big Data aan de Universiteit van Amsterdam en leider van een team data-scientists bij KPMG.

Een nieuwe generatie data-analysetechnieken kan helpen overheidsbeleid passender, doelmatiger en robuust te maken. Daar horen begrippen bij als Open Data, Big Data en Smart Cities. Om deze nieuwe ambities te verwezenlijken is een beter samenspel nodig van wetenschap, beleid en bedrijfsleven. Althans, dat is de inzet van ScienceWorks, een bureau dat de valorisatie van wetenschappelijke kennis ondersteunt. Op 30 april organiseert ScienceWorks het congres ‘Betere data, Beter beleid’ waar onder andere Sander Klous, Paul Suijkerbuijk en Ruben Dood spreken.

Hij ziet die ontwikkeling niet per se als bedreigend. Mits er goede mechanismen zijn om de individuele privacy te beschermen. In het boek ‘We zijn Big Data’ pleiten hij en mede-auteur Nard Wielaard daarom voor het (verder) ontwikkelen van een ‘Big Data Ecosysteem’, opdat privacy-zorgen de kansen voor beter bestuur niet beperken. Daarover later meer.

Open Data

De overheid zit op een enorme berg gegevens. Het is inmiddels staand beleid dat die gegevens als open data beschikbaar worden gesteld, tenzij er gegronde redenen zijn dat niet te doen. “Er waren destijds drie redenen voor het opendata-initiatief: meer transparantie, meer mogelijkheden voor economisch of maatschappelijk hergebruik en ten slotte meer gebruik van elkaars gegevens door overheidsorganisaties onderling.” Zegt Paul Suijkerbuijk, nu opendata-expert bij het expertisepunt Open Overheid, maar van 2009 tot 2013 de projectleider Open Data bij de rijksoverheid.
Dat bleek een langere weg dan vooraf gedacht: “Ik kwam niet zozeer onwil tegen, maar wel veel zorgen en praktische problemen. Zo bestond er soms onduidelijkheid over het eigenaarschap van gegevens, waren er zorgen over reputatieschade, over privacy of over de kwaliteit van de eigen datasets. Soms vond men eerst een verbeterslag noodzakelijk.”
Suijkerbuijk en Klous wijzen nog op een ander facet van transparantie: cijfers hebben context nodig. Klous noemt als voorbeeld de verplichting van ziekenhuizen om sterftecijfers te publiceren. “Verschillen zeggen op zich weinig, omdat het ene ziekenhuis een andere populatie heeft dan een andere. Voor je het weet moet een organisatie zich verdedigen tegen aantijgingen die niet kloppen.”
Het combineren van omvangrijke datasets leidt nog sneller tot brokken. Klous: “Dat is echt specialistenwerk. Ik zie te vaak gebeuren dat organisaties tooling aanschaffen waar vervolgens mensen mee werken die er onvoldoende verstand van hebben. Je kunt echt een heleboel fout doen.”

Tools

Nederland doet het volgens ingewijden in internationaal perspectief uitstekend wat betreft het beschikbaar stellen van Open Data. Het gaat ook al lang niet meer alleen om spreadsheets, maar ook om realtime data (weer, verkeer) en automatische datafeeds, zoals het CBS die sinds juli 2014 levert via Statline en het Open data-portal. En er komt nog veel meer aan, zoals bijvoorbeeld de 200 terabyte grote NDW dataset van Rijkswaterstaat, met daarin alle historische rijsnelheden op de Nederlandse wegen.
“De discussie verschuift van open data naar het gebrek aan middelen om ze te ontsluiten, de tools”, constateert Mark van der Net van OSCity. Dat roept de vraag op of de overheid zelf niet meer zou moeten doen aan het ontsluiten van de uitdijende data-oceaan, meer dan puur beschikbaar stellen. Suijkerbuijk is terughoudend: “Ik zou zeggen alleen in de stimulerende sfeer. Je kunt partijen bij elkaar brengen die elkaar van nature niet ontmoeten. Maar verder ben ik er voor dat de overheid gewoon zijn ruwe data beschikbaar stelt, zonder tools of voorbewerkingen. Anders ben je al aan het voorsorteren. Laat dat aan andere partijen over.”

‘Ik ben er voor dat de overheid gewoon zijn ruwe data beschikbaar stelt’

Het CBS verleent wel dienstverlening aan derden, maar Ruben Dood, directeur Centrum voor Beleidsstatistiek, ziet de primaire taak van zijn organisatie toch ook als die van ‘dataknop’, het aggregeren van informatie uit basisregistraties, enquêtes en andere (overheids)bronnen. Daarbij doet het tijdperk van Big Data zijn intrede. CBS is nu bijvoorbeeld bezig met hulp van de gegevens over de aanwezigheid van mobiele telefoons de zogeheten dagtijdpopulatie van gebieden in kaart te brengen: het aantal mensen dat ergens op een bepaald moment verkeert. Dood: “Bij veel wetgeving, zoals de Hinderwet, wordt nu naar het aantal inwoners gekeken. Maar het maakt nogal wat uit als overdag de halve bevolking weg is, of dat er juist veel meer mensen aanwezig zijn dan er wonen. Daar zou je eigenlijk rekenschap van moeten geven.”
Wat Klous opvalt is dat het bij de overheid “allemaal zo allemachtig lang duurt”. Er wordt vooral veel gesproken over het beschikbaar stellen of combineren van datasets. Klous is het overigens grotendeels met Suijkerbuijk eens: “Zolang het niet tot privacy- of andere praktische problemen leidt, zijn de markt en de wetenschap het beste geholpen als de overheid haar data zonder al te veel bewerkingen beschikbaar stelt. Als externe partijen geen waarde zien in het analyseren van die data, heeft het geen bestaansrecht.”

Wetenschap

Universiteiten en onderzoeksbureaus benutten op grote schaal publieke overheidsdata voor hun onderzoek. Maar ze geven volgens Van der Net eigenlijk weinig terug aan het publieke domein: “Met een paper of een proefschrift is het klaar. Er wordt niet meegebouwd aan een body of knowledge, zoals hij met het gratis online platform OSCity nastreeft. Daarmee worstelt hij (dan ook) na de startsubsidie met een levensvatbaar bedrijfsmodel.

‘De discussie verschuift van open data naar het gebrek aan tools’

CBS-man Dood verwacht van de wetenschappelijke wereld in de eerste plaats geavanceerde analysemodellen: “Op een heleboel vlakken kan het beleid nog beter op de feiten worden gebaseerd.” Klous wijst op de urgentie om data-scientists op te leiden. “Daar is een zwaar tekort aan. Je ziet bijna alle opleidingen daar nu wel zwaar op inzetten, maar de behoefte groeit nog sneller”.

Privacy

Als het over Big Data gaat is het thema privacy altijd nabij. Bedrijven als TomTom, ING en LG hebben gemerkt welk een mijnenveld dat is. TomTom voelde zich na publiciteit genoodzaakt een contract met de politie te annuleren voor het leveren van geanonimiseerde data over snelheidsoverschrijdingen; ING trok een plan in voor een pilot waarbij klanten – na toestemming – gepersonaliseerde aanbiedingen zouden krijgen; LG ging door het stof voor het ongevraagd doorgeven van door SmartTV’s verzamelde gegevens over kijkgedrag.
Klous maakt zich zorgen over de dominante positie van dataverzamelaars als Google en FaceBook. “Anders dan in de financiële sector ontbreekt hier elke regulering. Terwijl data en geld veel gemeen hebben. Daar ligt een taak voor overheden.”
Privacy blijft dus A Big Thing in de Big Data sector. Klous ziet de oplossing in de ontwikkeling van een Big Data-ecosysteem, waarbij betrouwbare intermediairs waken over privacy en gegevensbescherming. “Je ziet dat al ontstaan. Er zijn al partijen die data anonimiseren volgens de CBP-richtlijnen (zoals ZorgTTP en Pseudonomiseer) en partijen die garanderen dat ze data van partij A combineren met die van partij B, zonder dat A en B toegang krijgen tot elkaars gevoelige gegevens.”
Een andere benadering is dat partijen zelf de data in huis houden en analisten toegang geven tot een deel van de gegevens. Klous: “Dat is een veel krachtiger concept dan dat je data over de muur gooit. Dan krijg je óf een privacyprobleem óf verarmoedigde data.”
Dood: “Het CBS verleent al jaren dergelijke services. Onder voorwaarden geven we onderzoekers toegang tot de onderliggende geanonimiseerde microdata. Er is dan statistisch onderzoek mogelijk op het niveau van individueel persoon, bedrijf of huishouden zonder gevaar voor de privacy.”


Plaats een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren