Verborgen privacygevaren

26 september 2019

algemene verordening gegevensbescherming

Welke risico's heeft grootschalige datamining voor de uitvoering van de Wet open overheid en wat is er tegen te doen?

De Wet open overheid (Woo), nu nog ter besluitvorming bij de Eerste Kamer, verplicht overheidsorganisaties om nog voor veel meer documenten actief openbaar te gaan maken dan er nu reeds worden gepubliceerd. De risico’s die dat kan inhouden voor de privacy van burgers zijn nauwelijks onderkend en nog lang niet afdoende geadresseerd. Recent onderzoek is een wake-up call voor de gevaren die ons mogelijk bedreigen.

Over dat onderzoek straks meer, maar eerst neem ik u even mee naar Helsinki, waar ik eerder deze maand een seminar bezocht over het ‘pseudonimiseren’ van rechterlijke uitspraken bij omvangrijke publicatie daarvan op internet. Al eerder schreef ik de massale publicatie van rechterlijke uitspraken niet zo’n goed idee te vinden, en verwonderde ik mij over de vreemde consequenties waar dat toe kan leiden.

Maar enfin, kennelijk ben ik een roepende in de woestijn; in steeds meer landen denkt men dat burgers er blij van worden als onder het mom van ‘transparantie’ miljoenen rechterlijke uitspraken over ze worden uitgestort. Gelukkig is er wel het besef dat die uitspraken eerst moeten worden ‘gepseudonimiseerd’, de AVG-term voor ‘geanonimiseerd’. Nu is het met de hand verwijderen van persoonsgegevens uit miljoenen uitspraken nogal bewerkelijk, dus daar wordt slimme technologie voor ontwikkeld. In Helsinki werd verslag gedaan van de resultaten die daarmee in verschillende landen worden bereikt. Ik zal meteen toegeven dat de voortgang die werd getoond best indrukwekkend was. Vooral combinaties van verschillende technologieën halen al snel een score van boven 95 procent. Handmatige nacontrole hoeft dan weinig tijd te kosten.

Probleem opgelost, toch? Informatici bouwen met slimme algoritmes een stevige muur voor de bescherming van persoonlijke data, en dat moet ook wel, want anders dan op Instagram en Facebook komen in rechterlijke uitspraken meestal niet je leukste karaktertrekjes aan de orde. Maar beveiligingsmuren in de IT zijn zo sterk als de kleinste gaatjes, en voor het vinden van die gaatjes hebben we hackers. En die hackers hebben slecht nieuws voor wie hoopt dat haar of zijn gegevens bij de rechtspraak wel veilig zijn.

Want toevallig twee dagen voor het genoemde seminar publiceerden enkele onderzoekers hun bevindingen in een Zwitsers tijdschriftartikel. Daarin doen ze verslag van hun pogingen om gepseudonimiseerde rechterlijke uitspraken te ‘reïdentificeren’, met andere woorden: om het pseudonimiseren ongedaan te maken. Het onderzoek was beperkt van opzet en omvatte alleen beslissingen van het Bundesverwaltungsgericht en het Bundesgericht inzake toelating en prijsstelling van medicijnen op de Zwitserse markt. De uitspraken waren door deze rechterlijke instanties zodanig gepseudonimiseerd dat de namen van de procespartijen en de merknamen van de betrokken geneesmiddelen niet meer uit de tekst waren af te leiden. De onderzoekers hebben echter getracht tot reïdentificatie te komen door de uitspraken te koppelen aan datasets die door andere overheidsinstanties als open data waren gepubliceerd. Bij het onderzoek zijn geen slimme algoritmes ingezet; alles gebeurde met de hand, waarbij de onderzoekers zich een tijdslimiet hadden gegund van één uur per uitspraak.

En ondanks deze beperkingen was het resultaat verbijsterend: 84 procent kon worden gereïdentificeerd. Jawel, vierentachtig procent!

Rechterlijke uitspraken vallen niet onder de Wet open overheid, maar miljoenen andere overheidsdocumenten wel. En ook in die documenten komen ontzagwekkende hoeveelheden persoonsgegevens van burgers voor. En die moeten – een enkele uitzondering daargelaten – allemaal worden gepseudonimiseerd. Een belangrijk verschil met rechterlijke uitspraken is dat er bij de Woo-documenten een veel grotere variatie is aan zowel documentsoorten als verantwoordelijke overheidsdiensten. Daardoor zal pseudonimiseren veel ingewikkelder, tijdrovender en duurder worden, zowel wanneer dat met de hand wordt gedaan, als wanneer daar software voor wordt ontwikkeld.

Het Zwitserse onderzoek heeft bovendien aangetoond dat een van de grootste problemen erin zit dat je ook ‘indirecte identifiers’ moet pseudonimiseren, maar dat je pas weet wat voor soort gegevens als ‘indirecte identifier’ kunnen worden gebruikt als je kennis hebt over allerlei andere datasets. En hoe meer datasets er – bijvoorbeeld als gevolg van de Woo – beschikbaar komen, hoe groter de kans dat onschuldig ogende gegevens opeens een ‘indirecte identifier’ blijken te zijn.

De Quick scan impact Wet Open Overheid van ABDTOPconsult wees al op deze privacyrisico’s:

Zelfs wanneer [documenten of registers, mvo] ontdaan worden van informatie die in directe zin herleidbaar is naar concrete personen of concrete dossiers, bestaat het risico dat via de wereld van de big data (datamining) de wèl verstrekte informatie in combinatie met geheel andere gegevensbestanden tóch kan leiden tot een situatie waarin bij derden ongewenste informatie boven tafel komt. Hier liggen, naar het oordeel van de organisaties die we geraadpleegd hebben, majeure risico’s, ook al zijn die niet altijd in concrete zin te duiden, laat staan te bewijzen. Daarbij kan ook gedacht worden aan hackers en buitenlandse inlichtingendiensten.

Het Zwitserse onderzoek levert een belangrijke aanwijzing op dat deze majeure risico’s inderdaad bestaan. Het lijkt mij daarom hoog tijd om serieus te gaan onderzoeken welke risico’s grootschalige datamining zou kunnen hebben voor uitvoering van de Woo, en welke consequenties we daaraan – reeds nu – zouden moeten verbinden. Better safe than sorry.

Marc van Opijnen is adviseur rechtsinformatica bij het Kennis- en exploitatiecentrum Officiële Overheidspublicaties (BZK/UBR/KOOP).

Over Marc van Opijnen

Lees meer van Marc van Opijnen »

P.J. Westerhof LL.M MIM | 28 september 2019, 13:01

“ ‘gepseudonimiseerd’, de AVG-term voor ‘geanonimiseerd’.”
Dit is onjuist.

Volledig geanonimiseerde gegevens worden onder de AVG niet langer beschouwd als persoonsgegevens en vallen derhalve niet langer onder de AVG. [Overweging 26 AVG].
Lees ook ‘Comparing the Benefits of Pseudonymization and Anonymization Under the GDPR’ door Hintze & El Emam [2017].

Anonimisering hoeft weinig meer moeite te kosten dan pseudonimisering en is daarom voor alle betrokkenen verre te prefereren.

Log in om te reageren ↓
Marc van Opijnen | 9 oktober 2019, 17:26

De AVG is bij velen nog onbekend, en daarom wordt het woord ‘anonimisering’ vaak gebruikt voor het verwijderen of onherkenbaar maken van persoonsgegevens. Of dat volgens de AVG ook ‘anonimisering’ mag heten is echter afhankelijk van de vraag of iemand (de verwerkingsverantwoordelijke of iemand anders) nog de sleutel in handen heeft om de onherkenbaar gemaakte gegevens weer te herleiden tot de oorspronkelijke persoonsgegevens. Als dat het geval is, dán is sprake van ‘pseudonimisering’. Alleen als niemand meer in staat is om nog te achterhalen over wie het ging, dan kan je spreken over ‘anonimisering’.
In het geval van rechterlijke uitspraken is het dus zeker niet juist dat: “Anonimisering hoeft weinig meer moeite te kosten dan pseudonimisering”, want in de zaaksregistratiesystemen en de interne uitspraakarchieven van de rechtspraak zal nog vele jaren te achterhalen zijn wie er met [verdachte] en [getuige 1] is bedoeld. Om rechterlijke uitspraken in AVG-terminologie te ‘anonimiseren’ zullen al die gegevens uit de interne systemen van de rechtspraak verwijderd moeten worden.
Zoals de aangehaalde overweging 26 zegt: “Om te bepalen of een natuurlijke persoon identificeerbaar is, moet rekening worden gehouden met alle middelen waarvan redelijkerwijs valt te verwachten dat zij worden gebruikt door de verwerkingsverantwoordelijke of door een andere persoon om de natuurlijke persoon direct of indirect te identificeren.”
Thans staat op Rechtspraak.nl te lezen dat de uitspraken zijn ‘geanonimiseerd’ (volgens de ‘Anonimiseringsrichtlijnen’), maar in AVG-terminologie hebben we het dus over ‘pseudonimiseren’. Dáárom schreef ik dat ‘pseudonomisering’ de AVG-term voor ‘anonimisering’ is: ‘anonimisering’ zoals dat in het dagelijks spraakgebruik – meestal ten onrechte dus – wordt gehanteerd, en niet ‘anonimisering’ in de erg enge betekenis die de AVG eraan geeft.
Uitspraken op Rechtspraak.nl die van persoonsgegevens zijn ontdaan, zijn ‘gepseudonimiseerd’, en niet ‘geanonimiseerd’. De AVG is er dus gewoon op van toepassing.

Log in om te reageren ↓
P.J. Westerhof LL.M MIM | 10 oktober 2019, 15:36

Het is zorgelijk dat de AVG “bij velen nog onbekend” is. Ik heb begrepen dat overheid en bedrijfsleven nog druk zijn met ‘bewustwording’.
Maar wie de term ‘anonimisering’ gebruikt zal het onderscheid kennen met ‘pseudonimisering’. Dat is ongeveer hetzelfde als ‘groen’ en ‘rood’ bij een verkeerslicht.

Overigens worden (vooralsnog) lang niet alle rechterlijke uitspraken gepubliceerd. En slechts dan ná te zijn geanonimiseerd conform de Anonimiseringsrichtlijn.
Inherent aan het juridisch metier geldt met name voor rechterlijke uitspraken dat anonimisering daarvan weinig meer moeite kost dan pseudonimisering. Uitzonderingen daargelaten zijn rechterlijke uitspraken immers een concretisering en individualisering van anonieme algemeen geldende regels.
Zodoende is het een kwestie van eenvoudig toepassen van de Anonimiseringsrichtlijn en doorlezen van de uitspraak op afwijkende frasen alvorens te publiceren. De ‘redelijkheids-eis’ van overweging 26 AVG – inclusief de ‘proportionaliteits-eis’ – wordt daarmee volledig ingevuld. Er is dan dus sprake van anonimisering, niet van pseudonimisering. De AVG is derhalve daarop niet meer van toepassing.

Indien “iemand (de verwerkingsverantwoordelijke of iemand anders) nog de sleutel in handen heeft om de onherkenbaar gemaakte gegevens weer te herleiden tot de oorspronkelijke persoonsgegevens” dan is sprake van pseudonimisering en is dús de AVG van toepassing. Dat is bijv. het geval bij ‘datamasking’.

Daarnaast geldt in alle gevallen – daaronder ook het streven naar Open Government Data – dat privacy-overwegingen aan publicatie in de weg kunnen staan.
Voor zgn. ‘High Value Datasets’ (o.a. J&V) geldt restrictieve toegang. Op niet-geanonimiseerde gegevens in zaakregistratiesystemen en evt. ‘interne uitspraakarchieven’ is de AVG uiteraard onverkort van toepassing, voor zover deze niet worden uitgezonderd (art. 2 lid 2 AVG).

Log in om te reageren ↓

Plaats een reactie Reactie annuleren

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren