Veel overheidsorganisaties hebben het gevoel dat ze ‘iets met big data’ moeten doen, bijvoorbeeld om betere beslissingen te kunnen nemen. Maar het is misschien beter geen ‘Afdeling Big Data’ op te zetten met geavanceerde software en dataspecialisten, blijkt uit een proef in Rotterdam. ‘Van onderop’ de organisatorische datasilo’s doorbreken werkt daar goed.
Grote steden hebben vrij grote onderzoeksafdelingen die grondstof leveren voor beleid. Ze werken vaak nog traditioneel; een mogelijk toekomstige onderzoeksvraag leidt tot een model waarin alle beschikbare gegevens en data passen en gaan daarmee aan de slag – een tijdrovende procedure die veel inspanning vergt. En dan maar hopen dat de uitkomsten niet achterhaald zijn. ‘Big data’ – het uit verschillende bronnen samenvoegen van gegevens en daaruit patronen halen – kan helpen, maar het verschijnsel past niet zo goed in die traditionele onderzoeksafdelingen. Veel gemeenten willen wel ‘iets met big data’ maar weten niet hoe ze dat moeten aanpakken.
In Rotterdam is bij wijze van proef eens voor een andere aanpak gekozen. “Het past niet zo goed in een bureaucratische organisatie”, zegt Gerard Nijboer, procesmanager innovatie bij de gemeente Rotterdam. “Dus je moet veel meer vanuit een netwerkgedachte aan de slag, mensen uit de organisatie met elkaar verbinden.” Nijboer en zijn collega’s gebruikten daar niet eens de term ‘big data’ voor, maar begonnen gewoon eens rond te vragen: ‘doet u iets met data’. “Het moest geen filosofisch clubje worden, maar een groep mensen uit de lijn die het niet als ‘iets van boven’ of iets bedreigends ziet.”
Kortcyclisch
Besloten werd tot een proof-of-concept rond gegevensanalyse in het sociale domein, om betere indicatoren te vinden die kunnen wijzen op sociale verzekeringsfraude. Niet zozeer om meteen harde resultaten te genereren, maar om inzicht te krijgen in hoe zoiets eruit zou kunnen zien, een ‘learning lab’, bij wijze van spreken.
Dat was een kwestie van voortschrijdend inzicht. Nijboer: “We begonnen met idee om naar de concerntop te gaan om strategische vragen boven water te krijgen, en dan zouden wij daarmee aan de slag gaan. Maar later bedachten we: dat heeft weinig zin want het is maar de vraag of men die strategische vragen kan benoemen zonder op een te hoog aggregatieniveau te raken. Je moet op het niveau van de mensen zitten die ermee aan de slag moeten en die er de waarde van kunnen zien. Anders is het ‘databases leegtrekken en je hoort nog wel eens van ons’. Dan ga je voorbij aan de verantwoordelijkheden en de zorgvuldigheden.” Belangrijk daarbij is volgens hem kortcyclisch werken, met niet te veel aannames vooraf.
Van onderaf
Nijboers team ging aan de slag samen met Willem van Asperen, chief data scientist van PA Consulting Group, die zich ook helemaal kon vinden in het Rotterdamse ‘grassroots’-idee. “De big data-revolutie is ook een opensource-evolutie. De software daarvoor is gewoon te downloaden”, zegt hij. “Vervolgens mochten we de organisatie in om relevante data op te halen.” Dat werd een iteratief proces, op basis van oorspronkelijke hypotheses waar steeds nieuwe data bij gezocht werden om tot nieuwe inzichten te komen. “Niet alle verbanden die worden gevonden zijn daarbij relevant. Eén van de dingen die we in de data vonden is dat als iemand ouder is dan 83, de kans groot is dat die persoon fraudeert. Dan is die persoon wel gehuwd maar woont niet meer met de partner op hetzelfde adres. Maar dat gebeurt op die leeftijd natuurlijk best vaak, zonder dat dat betekent dat er sprake is van fraude, bijvoorbeeld omdat een van de twee in een bejaardentehuis zit. Dat maakt duidelijk dat je altijd inhoudelijke deskundigen nodig hebt om verbanden te duiden.”
Minder ‘false positives’
Van Asperen denkt dat is aangetoond dat echt nieuwe inzichten zijn te verkrijgen door uit meerdere ‘silo’s’ gegevens bij elkaar te brengen. “Uitgangspunt was bijvoorbeeld de vinkjeslijst die de sociale dienst gebruikt om fraude te detecteren. Onze data-analyse heeft daar eigenlijk een veel kleurrijkere vinkjeslijst van kunnen maken, door aan te tonen dat bepaalde dingen wel of juist niet aan de hand waren.” Waarom de Sociale Dienst daar niet eigenstandig op komt? “Technisch is het geen enkel probleem. Het is juist de benadering, het silo-denken. Ik denk dat wij erin geslaagd zijn om vanuit heel veel afdelingen data bij elkaar te brengen. We hadden niet alleen de GSD-data, maar ook de leeftijd van de panden, de Kamer van Koophandel-informatie et cetera. Door die bij elkaar te brengen kom je tot nieuwe inzichten, ook omdat je moeilijker vragen kunt gaan stellen. Bijvoorbeeld wat het betekent als er ergens een bedrijf is gevestigd.” In de controle kunnen er door deze data-analyse minder ‘false positives’ optreden, denkt Van Asperen. “Je wilt minder mensen belasten met een controle, waar je van tevoren eigenlijk kunt zien dat er niks mis is. Dat wordt redelijk goed afgedekt door de huidige werkwijze, maar je kunt de selectiecriteria nog wat aanscherpen. Mensen die net getrouwd zijn daar hoef je voorlopig niet langs, bijvoorbeeld. Aan dat soort dingen moet je denken.”
Privacyargument
Het silo-denken is overigens niet het enige probleem. Het gaat vaak om persoonsgerelateerde data, dus niet alles mag. Maar vaak is niet helder wat wel of niet mag. Nijboer: “Je ziet dat het privacyargument dan heel snel over tafel wordt gegooid. Er mag veel meer dan men denkt of wil. Er zit natuurlijk wel vaak een bestuurlijk afbreukrisico aan. Zo van: ‘Het mag niet, want ik denk dat ik anders gezeur krijg met mijn wethouder.’ Hoe ga je ze daar dan toch in verleiden? Als je alles benoemt, ben je al een stuk verder. Laat zien dat je iemand begrijpt.”
Deel van een ‘waterkaart’ van Rotterdam met data uit vier verschillende bronnen.
Met de grote ‘hoog-over’ verhalen over wat er allemaal kan met big data heeft Nijboer niet veel op. “Je hoeft maar een vakblad open te slaan om het gevoel te krijgen dat je achter loopt. Betrekt nou gewoon de mensen op dagelijks niveau bij dat big data-verhaal. Ga het niet te veel definiëren, laat mensen er zelf hun positie over innemen en kijk waar je toegevoegde waarde kunt leveren.”
Patronen leren zien
Van Asperen ziet het enthousiasme groeien. “Vooral bij de mensen die hier dagelijks profijt van kunnen hebben. En we hebben blootgelegd dat er zaken missen in het beleid rond het delen van data. Daarin zijn twee momenten: het moment dat je data in een gezamenlijke pot stopt en het moment dat er data uitkomt om operationeel te maken. Je mag niet alles zomaar bij elkaar zetten en je mag niet zomaar gebruiken. Op die momenten moet je dus op je qui vive zijn.” Anonimiseren en vervolgens patronen ontdekken die de controleurs kunnen helpen is het uitgangspunt; niet het genereren van een lijst met te controleren mensen.
Nijboer denkt dat ook de klassieke onderzoekers wel snappen dat er met de beschikbare data steeds meer gedaan kan worden. “We gaan nu verder met deze manier van werken. Bijvoorbeeld met vroegsignalering van schulden. Hoe kun je het zo inrichten dat je in een vroeg stadium kunt zien dat er iets aan de hand is? Zie je bij wijze van spreken de abonnementen op de Donald Duck opgezegd worden? Het zijn hele eenvoudige dingen waar je naar kunt kijken. Huisartsen weten ook onmiddellijk waar de pijn zit. Ga dat dan met zijn allen anonimiseren en met elkaar delen om de patronen te leren herkennen.”
Hallo,
Ik zou graag met Gerard Nijboer eens willen spreken over het gebruik van gegevens (big data). Kunt u vragen of hij contact met mij zoekt of kunt u mij zijn email adres geven?