Als we data mogen gebruiken, kunnen we die dataverwerking dan ook zo beschermen dat we ongewenste lekkage voorkomen? We zullen wel moeten, de AVG zegt het. Dat dit nog niet zo eenvoudig is moge duidelijk zijn. Het Nationaal Innovatie Centrum Privacy Enhancing Technologies (PET) kan de overheid hierbij helpen.
PET’s kunnen datgene wat we graag willen ook zonder risico’s op een solide manier vormgeven, maar het wordt er niet makkelijker op. | Beeld: Pixabay
Binnen de overheid wordt heel veel data gedeeld en een groot deel daarvan is gevoelig. Bovendien hebben overheden vanzelfsprekend een voorbeeldfunctie bij het naleven van de AVG. Privacy Enhancing Technologieën (PET’s) maken gezamenlijk data-analyses tussen organisaties mogelijk, en doen dat op een privacy-vriendelijke manier. Ze staan bij toepassers binnen de overheid sterk in de belangstelling. Het is daarbij niet verwonderlijk dat er op dit moment veel wielen opnieuw worden uitgevonden.
Op initiatief van een aantal ministeries en uitvoeringsorganisaties is in september 2022 in samenwerking met TNO het Nationaal Innovatie Centrum Privacy Enhancing Technologies (NICPET) opgericht. Doel is om onderling best practices te delen en om gezamenlijke activiteiten op te zetten zoals gezamenlijke marktuitvraag of standaardisatie.
Datagedreven werken
Door de continue digitalisering is ook binnen de overheid de hoeveelheid mogelijkheden om iets nuttigs met data te doen enorm toegenomen. In plaats van het handmatig doorlopen van kaartenbakken kun je nu snel zoeken of een bepaalde persoon die voor het loket staat, misschien iets op zijn kerfstok heeft. In plaats van het neerzetten van een agent op een straathoek om te kijken of de verdachte langsloopt, kun je ook camera’s installeren met gezichtsherkenning er achter. In principe hetzelfde, toch? Het kan technisch gezien, we willen boeven vangen, dus waar wachten we op?
Het combineren van persoonsgegevens kán technisch gesproken misschien wel, maar we willen het niet in alle gevallen.
Nieuwe technologie wordt geïntroduceerd om dingen te verbeteren. Maar: er zijn ook altijd ongewenste bijeffecten. Het duurt meestal even voordat die bijeffecten helder worden en er iets tegen gedaan wordt. Er wordt dan bijvoorbeeld een wet geïntroduceerd die uitwassen tegengaat. De AVG is daar een goed voorbeeld van: het combineren van alle beschikbare persoonsgegevens kán technisch gesproken misschien wel, maar we willen het duidelijk niet in alle gevallen.
Met de introductie van de term ‘big data’, al weer geruime tijd geleden, is een grote zoektocht op gang gekomen naar nuttige inzichten uit data. Zowel bedrijven als overheden hebben de data die ze hadden zo goed mogelijk ingezet. Maar die zoektocht kan uit de bocht vliegen. Vooral als het om persoonlijke data gaat is niet alles wat kan ook wenselijk.
Wettelijke grondslagen niet voldoende
De AVG introduceert de wettelijke grondslagen op basis waarvan je persoonlijke data mag verwerken. Het blijkt dat er dan veel situaties zijn waarin we het kunnen én we het ook mogen, het combineren van die persoonsgegevens. Toch is dat nog niet voldoende.
Art 5f van AVG zegt “Persoonsgegevens moeten door het nemen van het nemen van passende technische of organisatorische maatregelen op een dusdanige manier worden verwerkt dat een passende beveiliging ervan gewaarborgd is (..)”, dus alleen dán mag de data verwerkt worden.
Dat is nog niet zo makkelijk. Een data-lekkage kan zomaar voorkomen. En zelfs als de data goed beschermd is, kunnen slimmeriken soms nog informatie op een ongewenste manier afleiden. Een voorbeeld: persoonlijke data kun je wel anonimiseren, maar het zogenaamde ‘heridentificeren’ blijkt soms verrassend ver te kunnen gaan.
De uitdaging is om data-analyse zó in te richten dat je wél kunt doen wat wettelijk en wenselijk is, maar dat niemand er meer uit kan halen.
Als we bijvoorbeeld willen onderzoeken bij wie en onder welke omstandigheden bepaalde medische aandoeningen vaker dan gemiddeld voorkomen, is medische data nodig die we dan combineren met bijvoorbeeld data over woonomgeving. Als de data geanonimiseerd is, zou dat toch moeten kunnen? Helaas, de universiteit van Melbourne toonde aan dat ze in geanonimiseerde gezondheidszorgdata vaak de identiteit van patiënten op vrij eenvoudige manier konden achterhalen.
De uitdaging is om data-analyse zó in te richten dat je wél kunt doen wat wettelijk en wenselijk is, maar dat niemand er meer uit kan halen dan wat er afgesproken is.
De techniek: Privacy Enhancing Technologieën (PET’s)
Tot zo’n vijftien jaar geleden was het alleen nog maar in theorie mogelijk, maar inmiddels zijn er technieken die ons in staat stellen om data te verwerken zónder de data zelf te kunnen inzien. Dat klinkt tegenintuïtief, en er is vaak nogal complexe wiskunde bij betrokken, maar met een voorbeeld is het wel te illustreren.
Voorbeeld
Neem het berekenen van het gemiddelde salaris van een groep mensen. Niemand wil zijn salaris voor een ander inzichtelijk maken, maar men wil wel graag het gemiddelde weten zonder een ‘vertrouwde derde partij’ in te schakelen. Kan dat? Jazeker. Volg deze stappen: De eerste persoon kiest een geheim getal en telt dat bij zijn eigen salaris op. De uitkomst wordt met de tweede persoon gedeeld. Die kan hier onmogelijk uit afleiden wat het echte salaris van de eerste persoon is: immers, er is een geheim getal bij opgeteld. Het kan dus werkelijk alles zijn. De tweede persoon telt zijn salaris bij het ontvangen getal op en deelt dat met de derde persoon. Die doet weer hetzelfde, net zo lang tot ieders salaris opgeteld is. De eerste persoon ontvangt nu van de laatste persoon de totale uitkomst, en trekt daar zijn geheime getal weer van af. Deel de som door het aantal aanwezigen en daar rolt het gemiddelde uit.
Er is niet één technologie, maar er is een heel scala aan oplossingen, die ieder weer voor- en nadelen hebben en afhankelijk van de specifieke toepassing kan de meest passende worden gekozen. Voorbeelden zijn:
- Multiparty Computation (rekenen op cryptografisch versleutelde data)
- Federated Learning (een AI model trainen op een gedistribueerde manier)
- Synthetische datageneratie.
Kenmerk blijft dat geen enkele deelnemer in de samenwerking meer kan ‘leren’ dan de uitkomst. Daarmee is de vereiste vanuit de AVG op de best mogelijke manier, namelijk wiskundig aantoonbaar ingevuld.
Verschillende bedrijven bieden inmiddels werkbare oplossingen aan: Branchkey (Federated Learning), Roseman Labs(MPC) en Syntho (synthetische data), Linksight (MPC) en BlueGen (synthetische data) zijn al enige tijd actief, en ook vanuit de rijksoverheid zelf zijn er operationele oplossingen in gebruik genomen (FCInet). Sommige toepassingen vereisen nog wel onderzoek, en daar is TNO dan weer mee bezig bijvoorbeeld rondom Open Source.
De toepassing: wetten en praktische bezwaren
Zo lang er een rechtsgrond is om data te combineren, is het dus nog op een veilige manier mogelijk ook. Zet dit de weg open naar het grootschalig delen van data binnen de overheid? Dat bezwaar wordt wel genoemd: grootschalig data delen klinkt als surveillance. Tegelijkertijd kan dat data delen burgers ook juist helpen.
Technologie is, ondanks de complexiteit ervan, meestal het kleinste probleem.
Uit de ruim 30 casussen die TNO in een onderzoek geïnventariseerd heeft blijkt dat technologie, ondanks de complexiteit ervan, meestal het kleinste probleem is. De DPIA (Data Protection Impact Assessment) zal in alle gevallen de basis zijn en daarin is het identificeren van de rechtsgrond zo’n beetje de eerste stap. De inpassing in het bedrijfsproces en de organisatie van de data-analyse zijn vaak een groot onderwerp, net zoals de communicatie naar beslissers en andere betrokkenen.
Dus juist omdat de inzet van PET’s niet zo simpel is zal de inzet ervan een project op zich zijn, met alle checks en balances die daarbij horen. Dit in tegenstelling tot het ‘even’ opsturen van een Excel-bestandje over de mail.
We zien hier een paradox: door de inzet van PET’s kan datgene wat we graag willen ook daadwerkelijk zonder risico’s op een solide manier vormgegeven worden, maar het wordt er in eerste instantie niet makkelijker op.
Freek Bomhof is senior business consultant bij TNO