Overslaan en naar de inhoud gaan
(advertentie)

Privacy en Softwareontwikkeling

Verleidelijk is dat wel. Het verwerken van persoonsgegevens gaat bijna altijd via software. Als je een nieuwe toepassing realistisch wilt testen, dan is het aantrekkelijk om echte persoonsgegevens te gebruiken. Hetzelfde gaat op voor probleemanalyses van operationele software.
Maar de Wet bescherming persoonsgegevens staat het gebruik van productiegegevens voor dit soort doeleinden meestal niet toe. Het is bovendien zeer onwenselijk dat personeel van de IT-afdeling toegang krijgt tot persoonlijke gegevens die niet voor hen bedoeld zijn. En afgezien van al het voorgaande: bedenk dat het merendeel van alle fraudegevallen van binnen uit komt. Bind dus niet de kat op het spek!

Hoe ontdek je het verschil tussen productiegegevens en random gegenereerde testdata? Dat is niet altijd even gemakkelijk. Stel dat productiegegevens door een zogenaamde ‘braatolizer’ (generator van nepgegevens, nvdr) zijn gehaald, dan kun je soms via een geospatiële analyse achterhalen of bestaande adresgegevens zijn gebruikt. Via algoritmes kun je vaststellen of postcodes bij plaatsnamen horen.
Via statistische tests valt soms vast te stellen of het om fake-data gaat. Maar ja, als die tests geen duidelijke uitslag geven, gaat het dan wel of niet om echte productiegegevens? Nazoeken met de hand is natuurlijk onbegonnen werk.

Er is nog een weg: de wet van Benford. Productiegegevens staan bol van het cijfermateriaal. In echte data komt het getal 1 als eerste cijfer het meest voor, en dat loopt af tot 9 met de minste kans. Dat is in 1937 beschreven door Frank Benford. De aanleiding was dat de eerste pagina’s van een logaritmisch tabellenboek veel beduimelder waren dan de laatste, dus meer bekeken. Hij onderzocht ook de eerste 342 adressen in de toenmalige American Men of Science en cijfers in Reader’s Digest. Zo ontwikkelde hij inzicht in patronen en uiteindelijk de zogeheten Benford-verdeling.
De uitkomst: als eerste cijfers in gegevensbestanden ongeveer Benford-verdeeld zijn, is de kans groot dat het om productiegegevens gaat. Met behulp van dit oude stukje wiskunde kun je vaak vaststellen of ontwikkelaars de beschikking hebben over privacy- of concurrentiegevoelige gegevens.

En als dat zo is? Ja, daar moet je dan als bestuurder wat mee.

Plaats een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

(advertentie)

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in