eerder verschenen nummers

zoeken binnen de website

Privacy en Softwareontwikkeling

door: Chris Verhoef | 16 februari 2017

Het verwerken van persoonsgegevens is onderhevig aan wet- en regelgeving. Je mag gegevens niet gebruiken voor een ander doel dan waarvoor ze verzameld zijn. Je mag ze evenmin onnodig lang bewaren. Dus ook niet om software te testen of om problemen in bestaande toepassingen op te sporen.

Prof. Chris Verhoef

Verleidelijk is dat wel. Het verwerken van persoonsgegevens gaat bijna altijd via software. Als je een nieuwe toepassing realistisch wilt testen, dan is het aantrekkelijk om echte persoonsgegevens te gebruiken. Hetzelfde gaat op voor probleemanalyses van operationele software.
Maar de Wet bescherming persoonsgegevens staat het gebruik van productiegegevens voor dit soort doeleinden meestal niet toe. Het is bovendien zeer onwenselijk dat personeel van de IT-afdeling toegang krijgt tot persoonlijke gegevens die niet voor hen bedoeld zijn. En afgezien van al het voorgaande: bedenk dat het merendeel van alle fraudegevallen van binnen uit komt. Bind dus niet de kat op het spek!

Hoe ontdek je het verschil tussen productiegegevens en random gegenereerde testdata? Dat is niet altijd even gemakkelijk. Stel dat productiegegevens door een zogenaamde ‘braatolizer’ (generator van nepgegevens, nvdr) zijn gehaald, dan kun je soms via een geospatiële analyse achterhalen of bestaande adresgegevens zijn gebruikt. Via algoritmes kun je vaststellen of postcodes bij plaatsnamen horen.
Via statistische tests valt soms vast te stellen of het om fake-data gaat. Maar ja, als die tests geen duidelijke uitslag geven, gaat het dan wel of niet om echte productiegegevens? Nazoeken met de hand is natuurlijk onbegonnen werk.

Er is nog een weg: de wet van Benford. Productiegegevens staan bol van het cijfermateriaal. In echte data komt het getal 1 als eerste cijfer het meest voor, en dat loopt af tot 9 met de minste kans. Dat is in 1937 beschreven door Frank Benford. De aanleiding was dat de eerste pagina’s van een logaritmisch tabellenboek veel beduimelder waren dan de laatste, dus meer bekeken. Hij onderzocht ook de eerste 342 adressen in de toenmalige American Men of Science en cijfers in Reader’s Digest. Zo ontwikkelde hij inzicht in patronen en uiteindelijk de zogeheten Benford-verdeling.
De uitkomst: als eerste cijfers in gegevensbestanden ongeveer Benford-verdeeld zijn, is de kans groot dat het om productiegegevens gaat. Met behulp van dit oude stukje wiskunde kun je vaak vaststellen of ontwikkelaars de beschikking hebben over privacy- of concurrentiegevoelige gegevens.

En als dat zo is? Ja, daar moet je dan als bestuurder wat mee.

tags: ,

Reactieformulier

De met een * gemarkeerde velden zijn verplicht. U ziet eerst een voorbeeld en daarna kunt u uw bijdrage definitief plaatsen. Uw e-mailadres wordt niet op de site getoond. Reacties zonder achternaam worden verwijderd. Anoniem reageren alleen in uitzonderlijke gevallen in overleg met de redactie. U kunt bij de vormgeving van uw reactie gebruik maken van textile en er is beperkt gebruik van html mogelijk.