Er is een steeds groter wordende plicht en noodzaak om documenten publiek te maken, vanuit bijvoorbeeld de Wet open overheid (Woo). We willen geen datalekken veroorzaken, maar hebben ook niet de capaciteit om data handmatig te anonimiseren. De markt voor anonimiseringstools is dan ook groeiende en het aanbod sterk stijgend. Hoe moeten we hier mee omgaan?
Durven we een foutmarge te accepteren bij geautomatiseerde verwerking en welke dan? | Beeld: Shutterstock
Anomiseringstools
Zie bijv. alle nieuwe applicaties in de Gemma Softwarecatalogus: https://www.softwarecatalogus.nl/pakketten?zoek=anonimiseren. Wat deze gemeen hebben, is dat ze allen persoonsgegevens verwerken, met behulp van lerende algoritmes (AI). Deze tools passen in een bredere ontwikkeling van nieuwe controle- en herkenningstooling. Lerende algoritmes zijn erg goed in herkennen van onregelmatigheden en patronen: van factuurcontrole tot het herkennen van straatafval. Voor anonimiseren levert een paradox op: om privacy-problemen te voorkomen, moeten we persoonsgegevens verwerken en zelfs AI gebruiken.
Privacy by design
Hoe moeten we hiermee omgaan? Natuurlijk zorgen dat we dit soort tools zo min mogelijk nodig hebben en niet als een magische oplossing gaan gebruiken. Dat betekent dat in eerste instantie applicaties persoonsgegevens gescheiden moeten gaan verwerken van niet-persoonsgegevens en dus ook documenten in twee (of meerdere) versies moeten gaan creƫren (afhankelijk van de gradaties in openbaarheid). Maar dit zal niet meteen en nooit voor 100% succes hebben. De snelheid waarmee privacy by design-maatregelen (wat dit bovenstaande is) in applicaties door leveranciers wordt toegepast is tergend traag (om verschillende redenen, die ook bij opdrachtgevers liggen). Daarnaast vindt er veel documentcreatie plaats buiten procesapplicaties: vanuit sjabloonapplicaties of rechtstreeks vanuit kantoorautomatiseringstools. Ook krijgt een organisatie veel documenten van derden te verwerken waarbij er vrijwel geen grip is op de vorming ervan. Er zal dus altijd ook een tool voor anonimiseren achteraf nodig zijn.
We zullen eisen moeten stellen aan dit soort tools wat betreft informatieveiligheid en minimale succesfactor.
Standaarden
We zullen eisen moeten stellen aan dit soort tools: niet alleen over de opslag van gegevens en de informatieveiligheid, maar ook bijvoorbeeld voor de minimale succesfactor. Deze tools zijn namelijk verschillend in de succesfactor die ze hebben in anonimiseren. Dit is relevant, omdat een lage succesfactor een datalek oplevert als deze niet voldoende omkleed is met persoonlijke controles. Durven we een foutmarge te accepteren bij geautomatiseerde verwerking en welke dan? Gaan we datasets controleren waarmee deze tools getraind zijn? Willen we terug kunnen zien wanneer welke Woo-uitzonderingsgrond is toegepast? In die zin haakt het in op vertrouwen in (lerende) algoritmes: hoe krijgen we dat? Standaarden zullen zeker helpen hierin. Of moeten we verder gaan? Moeten dit soort algoritmes openbaar worden?
Ook het gebruik van dit soort tools zal ingekaderd moeten worden. In welke context is het gebruik toegestaan en welke niet? In sommige situaties kun je ook teveel persoonsgegevens verwijderen of is er ondanks verwijdering toch sprake van herleidbaarheid. Willen we individuele controle of mag het in bulk? Hoe bouwen we persoonlijke controles door ambtenaren in werkprocessen in? Veel vragen waar we nu nog weinig antwoorden op hebben. Dit vraagt om een gezamenlijke aanpak.
Met dank aan input van Floor, Erik Jonker, RAPOSTHUMUS en ja_karman
Rob Haans is strategisch informatieadviseur bij de gemeente Nijmegen