Privacy en Softwareontwikkeling

16 februari 2017

Het verwerken van persoonsgegevens is onderhevig aan wet- en regelgeving. Je mag gegevens niet gebruiken voor een ander doel dan waarvoor ze verzameld zijn. Je mag ze evenmin onnodig lang bewaren. Dus ook niet om software te testen of om problemen in bestaande toepassingen op te sporen.

Verleidelijk is dat wel. Het verwerken van persoonsgegevens gaat bijna altijd via software. Als je een nieuwe toepassing realistisch wilt testen, dan is het aantrekkelijk om echte persoonsgegevens te gebruiken. Hetzelfde gaat op voor probleemanalyses van operationele software.
Maar de Wet bescherming persoonsgegevens staat het gebruik van productiegegevens voor dit soort doeleinden meestal niet toe. Het is bovendien zeer onwenselijk dat personeel van de IT-afdeling toegang krijgt tot persoonlijke gegevens die niet voor hen bedoeld zijn. En afgezien van al het voorgaande: bedenk dat het merendeel van alle fraudegevallen van binnen uit komt. Bind dus niet de kat op het spek!

Hoe ontdek je het verschil tussen productiegegevens en random gegenereerde testdata? Dat is niet altijd even gemakkelijk. Stel dat productiegegevens door een zogenaamde ‘braatolizer’ (generator van nepgegevens, nvdr) zijn gehaald, dan kun je soms via een geospatiële analyse achterhalen of bestaande adresgegevens zijn gebruikt. Via algoritmes kun je vaststellen of postcodes bij plaatsnamen horen.
Via statistische tests valt soms vast te stellen of het om fake-data gaat. Maar ja, als die tests geen duidelijke uitslag geven, gaat het dan wel of niet om echte productiegegevens? Nazoeken met de hand is natuurlijk onbegonnen werk.

Er is nog een weg: de wet van Benford. Productiegegevens staan bol van het cijfermateriaal. In echte data komt het getal 1 als eerste cijfer het meest voor, en dat loopt af tot 9 met de minste kans. Dat is in 1937 beschreven door Frank Benford. De aanleiding was dat de eerste pagina’s van een logaritmisch tabellenboek veel beduimelder waren dan de laatste, dus meer bekeken. Hij onderzocht ook de eerste 342 adressen in de toenmalige American Men of Science en cijfers in Reader’s Digest. Zo ontwikkelde hij inzicht in patronen en uiteindelijk de zogeheten Benford-verdeling.
De uitkomst: als eerste cijfers in gegevensbestanden ongeveer Benford-verdeeld zijn, is de kans groot dat het om productiegegevens gaat. Met behulp van dit oude stukje wiskunde kun je vaak vaststellen of ontwikkelaars de beschikking hebben over privacy- of concurrentiegevoelige gegevens.

En als dat zo is? Ja, daar moet je dan als bestuurder wat mee.

Over Chris Verhoef

Hoogleraar informatica aan de Vrije Universiteit in Amsterdam en wetenschappelijk adviseur voor overheid en bedrijfsleven. Hij is als wetenschappelijk adviseur verbonden aan het Advies College ICT-toetsing (ACICT)

Lees meer van Chris Verhoef »

Plaats een reactie Reactie annuleren

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren