Data en ai
Podium

Ongehinderd datadelen met synthetische data?

Er is nog onvoldoende bekend over het meten en karakteriseren van de kwaliteit van synthetische data. | Beeld: Shutterstock

Overheidsorganisaties willen graag meer persoonlijke data gebruiken om proactieve dienstverlening mogelijk te maken of maatschappelijke opgaven op te pakken. Ze stuiten daarbij vaak op juridische en ethische bezwaren. Synthetische data worden wel genoemd als dé oplossing om ongehinderd data te kunnen delen zonder de privacy van personen te schenden. Wat zijn synthetische data eigenlijk en kunnen ze die hoge verwachtingen waarmaken? En hoe maak je duidelijk dat de risico’s goed zijn afgedekt?

Synthetische data simuleren kenmerken van en relaties tussen personen en objecten (bijvoorbeeld een school of een wijk), waardoor de realiteit kan worden nagebootst zonder dat een persoon of object geïdentificeerd wordt.

Er zijn veel verschillende manieren om dit te doen. De verschillen zitten in hoeveel informatie de synthetische dataset bevat over de oorspronkelijke dataset en hoe het risico op onthulling van gevoelige gegevens wordt beschermd. Want dat is een van de belangrijkste redenen waarom synthetische data de laatste tijd erg in de belangstelling staan: de honger naar gegevens groeit alleen maar, terwijl vanwege de bescherming van privacy veel gegevens niet zo maar beschikbaar zijn.

Hoe eenvoudiger, hoe veiliger

In het eenvoudigste geval maak je een synthetische dataset die alleen maar de juiste kolomindeling heeft. Een toevalsgenerator vult de waarden van de records in, zonder te kijken hoe dat overeenkomt met de echte data. Dat lijkt niet erg nuttig, maar zo’n dataset kun je bijvoorbeeld gebruiken om software te testen. En omdat er behalve de structuur, geen enkele informatie over de echte dataset gebruikt wordt, is er geen kans op privacy problemen.

Voor meer geavanceerde systeemtesten is overigens al gauw een betere dataset nodig. Denk aan het Federatief Datastelsel dat de overheid in samenhang met de Interbestuurlijke Datastrategie aan het ontwikkelen is. Daar komen diverse soorten overheidsgegevens, waaronder de basisregistraties zoals het bevolkingsregister en het Kadaster, bij elkaar. Het testen van de verschillende koppelingen en verwerken van gebeurtenissen (“events”) in de data bij bijvoorbeeld een geboorte of een eigendomsoverdracht vraagt om een meer verfijnde aanpak. In zo’n soort test wil je bijvoorbeeld ook allerlei bijzonder gevallen kunnen testen. Dat geeft wel een bijkomend voordeel van synthetische data aan: bij het aanmaken van de datasets kun je die er naar wens in verwerken.

Echte data bevatten vaak erg veel verbanden die niet altijd vanzelfsprekend naar voren komen.

Voor andere gebruiksdoelen is het gewenst meer informatie over de oorspronkelijke dataset te gebruiken. Een stap verder is om ervoor te zorgen dat statistische kenmerken zoals gemiddelde en spreiding van iedere variabele in de synthetische dataset overeenkomen met de oorspronkelijke. Nog een stap verder is ervoor te zorgen dat ook de verbanden tussen variabelen kloppen. Zo’n verband kan een statistische correlatie zijn, maar kan ook bestaan uit meer complexe regels, zoals dat er geen zwangere mannen kunnen zijn, geen moeders van zes jaar oud en geen minderjarigen met rijbewijzen. Echte data bevatten vaak erg veel verbanden die niet altijd vanzelfsprekend naar voren komen. Dat maakt het lastig om een “natuurgetrouwe” synthetische dataset te maken.

Uitdagingen

Stel dat we een synthetische dataset willen maken voor een onderzoek naar beloningsverschillen tussen mannen en vrouwen. Om dat realistisch te doen zijn veel aanvullende verklarende variabelen nodig. Behalve geslacht en beloning kun je dan denken aan leeftijd, opleidingsniveau, deeltijdfactor, migratieachtergrond, branche en nog veel meer. Al die variabelen en alle relaties ertussen moeten statistisch correct gemodelleerd worden in de synthetische dataset om zo’n onderzoek mogelijk te maken. Dit legt meteen een eerste uitdaging voor synthetische data bloot: hoe toon je aan dat zo’n synthetische dataset correct gegenereerd is en alle vereiste verbanden bevat? Wat is de kans dat de conclusies van het onderzoek niet kloppen, omdat het syntheseproces een relatie heeft geïntroduceerd die helemaal niet bestaat of een belangrijke relatie over het hoofd ziet?

De tweede uitdaging met zo’n gebruiksdoel is dat er zoveel variabelen en zoveel statistische informatie over verbanden tussen die variabelen nodig is voor een realistische synthetische dataset, dat de kans op identificatie van personen of kleine groepen toch weer toeneemt. Dit blijkt een algemene regel te zijn. Hoe groter de analytische waarde van de synthetische data, hoe groter ook het onthullingsrisico. Een zorgvuldig gebruik van synthetische data vereist daarom dat je de geschiktheid voor een bepaald doel en het risico op onthulling tegen elkaar afweegt. Een synthetische dataset is daarom altijd een maatwerkproduct.

CBS-data gebruiken

Het belang van synthetische data voor het CBS laat zich gemakkelijk raden. Het CBS verzamelt vanuit zijn wettelijke taak allerlei soorten data om statistiek van te maken. Een deel van deze data bevatten gevoelige gegevens zoals data over personen, huishoudens, bedrijven en instellingen waarbij de bescherming van vertrouwelijke gegevens goed geregeld moet zijn. Deze zogenaamde microdata gebruikt het CBS eerst en vooral als grondstof voor statistische resultaten, die altijd een zorgvuldige controle op onthullingsrisico’s ondergaan.

Er is nog onvoldoende bekend over het meten en karakteriseren van de kwaliteit van synthetische data.

Daarnaast biedt de CBS-wet de mogelijkheid van toegang tot deze microdata ten behoeve van statistisch en/of wetenschappelijk onderzoek door gemachtigde instellingen zoals universiteiten. De hoeveelheid beschikbare data neemt nog steeds toe en de vraag daarnaar in de onderzoekswereld ook, maar onderzoekers mogen microdata alleen onder zeer strikte voorwaarden gebruiken in een speciaal afgeschermde CBS-omgeving. En die aanpak kent uiteraard grenzen. College geven binnen die afgeschermde omgeving is geen optie.

Ook op universiteiten kunnen synthetische data daarom een belangrijke rol spelen. Afhankelijk van de beoogde toepassing kunnen de synthetische data verschillende accenten krijgen. Als je een dataset nodig hebt om studenten te leren programmeren gelden anderen eisen dan als ze moeten leren kwantitatief onderzoek te doen.

Nog veel onderzoek nodig

Er is nog veel onderzoek en kennisopbouw nodig rond specifieke aspecten van synthetische data. Zo is nog onvoldoende bekend over het meten en karakteriseren van de kwaliteit van synthetische data. Voorkomen van onthulling is een van de belangrijkste drijfveren om synthetische data te maken, maar hoe je duidelijk maakt dat de risico’s goed zijn afgedekt is nog een deels open vraag. Ook wat de beste methoden zijn is onderwerp van onderzoek. Generative Adversarial Networks, een vorm van kunstmatige intelligentie, bereiken verbluffende resultaten met het maken van echt lijkende menselijke gezichten (deep fakes) en daar zijn ook al bewegende en pratende varianten van die steeds beter worden. Maar voor het synthetiseren van statistische data is dit niet noodzakelijk de beste aanpak. En hoe kom je tot een soepel en verantwoord proces om synthetische data te genereren, beoordelen en beschikbaar te stellen?

Naast de wiskundig-statistische vragen zijn er ook nog juridische en ethische vragen. Hoe verhouden synthetische data zich tot meer gangbare methoden van anonimiseren en pseudonimiseren? Wie is aansprakelijk voor de gevolgen van het gebruik van een synthetische dataset? Is synthetiseren ethisch verantwoord als het over patiënten met zeldzame ziektebeelden gaat? Het lastige bij dit soort vragen is dat er maar weinig deskundigen zijn die zowel de ethische en/of juridische als wiskundige en/of statistische kant begrijpen; nog los van soms vereiste inhoudelijke kennis. Desondanks is het wel belangrijk dat er een breed gedragen beeld ontstaat, op zijn minst binnen de Nederlandse overheid maar bij voorkeur breder, op nationale schaal of internationaal.

In 2023 is het initiatief genomen om het Kennisnetwerk Synthetische Data op te richten. Hierin werkt het CBS actief samen met een kernteam bestaande uit het ministerie van Justitie en Veiligheid, TNO, Avans Hogeschool en oprichter DUO. In dit netwerk delen we kennis en ervaring met vooral Nederlandse overheidspartijen en kennisinstellingen, en zijn we op zoek naar antwoorden op vragen rond verschillende aspecten van synthetische data.

Plaats een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren