
zoeken binnen de website
Partnerpagina ministerie van justitie en veiligheid
‘Wat pel je allemaal af?’
door: Frits de Jong
artikelen | 8 februari 2018
Om te bepalen of er bij het openen van data ‘onthullingsrisico’s’ spelen, doet een aantal partijen binnen het JenV-domein onderzoek naar softwaretools die uitsluitsel kunnen geven. Bij complexe datasets blijft de inhoudsdeskundige meekijken.

Beeld: Blinkerd
Mortaza Shoae Bargh, werkzaam op de afdeling Statistische Informatievoorziening en Beleidsanalyse van het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) is projectleider van het Privacy-Utility (PU) Tools-project. “Het project brengt in kaart welke technische instrumenten gebruikt kunnen worden bij het openen van data uit het JenV-domein. Wij zijn gestart begin april 2017 en vooralsnog heeft het project een looptijd van een jaar.”
Ronald Meijer, die binnen het WODC de coördinatie van dataleveringen heeft en ook betrokken is bij het vormgeven van het open databeleid binnen het JenV-domein, zegt daarover: “Binnen ons domein hebben we een groot aantal gevoelige databestanden, bijvoorbeeld waar het gaat om privacy. Om te bepalen hoe wij daar mee om moeten gaan, is een soort van routekaart ontwikkeld. Het PU Tools-project is daar een onderdeel van.”
Externe factoren
Bij het PU Tools-project zijn ook Directie Informatisering en Inkoop (DII) en de Nationale Politie aangehaakt. “Ook wij hebben de ambitie om steeds meer en rijkere datasets te ontsluiten en daarbij lopen we tegen dezelfde vragen aan”, aldus Walter Schirm, projectleider Open Data bij de Nationale Politie. Schirm erkent dat het openen van datasets niet altijd even gemakkelijk is. “Publicatie van iedere nieuwe dataset vereist een zorgvuldige toetsing aan het wettelijke afwegingskader voor openbaarmaking. Dat kader is best helder, maar de praktijk is soms weerbarstig. Het is betrekkelijk eenvoudig om een dataset zo uit te hollen dat de privacy niet in het gedrang komt, maar dat vermindert ook de hergebruikswaarde, de data utility van zo’n dataset. Dus ja, wat pel je minimaal af en hoe houd je het nog voldoende rijk voor hergebruik?”
Wat Schirm betreft is ook het verschil tussen intrinsieke en extrinsieke onthullingsrisico’s nog van groot belang. “Een dataset kan zelf al de nodige ingrediënten bevatten waarmee je iets aan een persoon kunt relateren; de intrinsieke risico’s. Ook informatie van buitenaf kan leiden tot onthullingen, bijvoorbeeld wanneer andere open datasets complementair zijn aan de jouwe; de extrinsieke risico’s. Ook die aspecten nemen we mee in ons onderzoek.”
Beschikbare tools
Het extrinsieke onthullingsrisico is een lastig vraagstuk bij het openen van data en de exponentiële groei van data maakt dit ‘probleem’ des te meer complex. Dat ervaart maakt ook Mortaza Shoae Bargh. “Vroeger was het eenvoudiger. Er was minder data en achtergrondinformatie. Menselijke intelligentie leek voldoende om beide in kaart te brengen teneinde herleidbaarheid naar personen te voorkomen. Dat is veranderd, vandaar dat we nu verder gaan in de richting van technische oplossingen en dat we onderzoeken of er technieken en tools zijn om de analyse van de privacy issues van de data makkelijker te maken. Daarbij kijken wij bijvoorbeeld naar tools, gebaseerd op open source software. Ook kijken we naar tools die gebruikt worden door het Centraal Bureau voor de Statistiek en een aantal tools die universiteiten beschikbaar hebben gesteld. We kunnen niet alles testen en dus kiezen we een vijftal van die tools uit die we nader gaan onderzoeken.” Ook methoden die nog niet in de te onderzoeken tools zijn geïmplementeerd, maar bijvoorbeeld wel in wetenschappelijke artikelen worden geïnventariseerd en beschreven, worden onderzocht.
Zware verantwoordelijkheid
JenV stelt, conform de Nationale Open Data Agenda (NODA), zoveel mogelijk datasets digitaal beschikbaar. Niet nee, tenzij maar ja, tenzij. Ronald Meijer geeft aan dat het openen van data een zware verantwoordelijkheid met zich meebrengt. “Binnen ons domein heb je het bijvoorbeeld over strafrechtelijke gegevens. Als die gegevens te herleiden zijn naar individuele personen, dan kan dat veel schade opleveren. Wat dat betreft is het niet te vergelijken met bijvoorbeeld rapportcijfers van school en dus moet je voorzichtig zijn met het openen van datasets.”
Walter Schirm onderstreept het ondersteunende karak- ter van dit soort tools. “Je kunt het openen van datasets in het JenV-domein niet volledig automatiseren. De blik van inhoudsdeskundigen blijft gewenst, zeker als we meer gedetailleerde data willen publiceren. Alles in één keer openstellen zal dus niet gaan. We verwachten dat dit onderzoek uiteindelijk kan helpen bij het aanbrengen van een soort ranking welke datasets eerst kunnen worden geopend en welke (nog) niet. Een andere mogelijke uitkomst is dat het de discussie voedt over principiële punten, bijvoorbeeld waar jouw verantwoordelijkheid stopt als het gaat om het extrinsieke onthullingsrisico. Gaandeweg worden vragen scherp en ontstaan er weer nieuwe vragen.”