Rotterdam introduceert kwaliteitslabel voor data
Data kunnen de basis vormen voor veel onderzoek, beleid en beslissingen. Maar hoe weet je wat de kwaliteit van die data is? De gemeente Rotterdam heeft een label ontwikkeld waarmee snel duidelijk wordt wat de kwaliteit van data is en voor welke doeleinden ze gebruikt kunnen worden.
Bij de aanschaf van een koelkast of een woning zijn we het al lang gewend: het energielabel. Het liefst kiezen we een A-label, maar door de hoge aanschafkosten wordt dit misschien een C-label. Er zijn ook steeds meer keurmerken voor duurzame voeding, waardoor consumenten naast gezonde opties ook bewuster kiezen voor het milieu en dierenwelzijn.
Maar hoe zit dat eigenlijk met data, vroegen Annemiek Teuben en Robert Jansen zich af? De data die we als Rotterdam verstrekken of de data die we voor onze algoritmen gebruiken? Een onderzoeker kan van een koude kermis thuiskomen als blijkt dat de data onvolledig is, niet actueel is, of dat de betekenis van datavelden onbekend is.
Bovenstaand voorbeeld is helaas geen uitzondering. Projecten lopen vertraging op doordat er fouten of onduidelijkheden zijn over de totstandkoming van het informatieproduct en algoritmen kunnen verkeerde uitkomsten geven door een slechte kwaliteit van de data.
In minder rooskleurige situaties gebruik je data voor besluitvorming en ontdek je achteraf dat er wellicht een slecht besluit is genomen, met grote gevolgen.
Betrouwbaarheidslabel
De gemeente Rotterdam werkt aan de ontwikkeling van een betrouwbaarheidslabel voor informatieproducten. Dat label geeft informatie over de totstandkoming van een informatieproduct en helpt de afnemer bewust te kiezen om het wel of niet te gebruiken. Het toekennen van een betrouwbaarheidslabel zorgt voor transparantie. Het maakt inzichtelijk in hoeverre we risico’s bij de totstandkoming van een informatieproduct of algoritme tot een minimum hebben beperkt. Daarnaast levert de score indirect een bijdrage aan verbetering van de datakwaliteit. En helpt het om de verantwoordelijkheid voor het verstrekken van kwalitatief betrouwbare informatie op de juiste plek te beleggen.
Checklist
We stelden een checklist op met criteria. Een hogere score betekent minder risico bij het gebruik van het informatieproduct. Hoe groter de impact van het product is, des te hoger zijn de eisen die we aan het product stellen. Neem een advies aan de gemeenteraad of het College van Bestuur & Wethouders. Dit advies moet gebaseerd zijn op zeer betrouwbare data.
Rotterdam kiest voor een checklist met tien criteria waarmee we de betrouwbaarheid van het informatieproduct bepalen. De antwoorden op een aantal van deze onderwerpen staan in de bijbehorende gegevensleverovereenkomst (GLO). Hierin staan afspraken tussen de (gegevens)leverancier en de afnemer over de datalevering en het interne gebruik.
10 Criteria
1. Privacy (AVG)
Hoe we de privacy borgen, zegt iets over hoe de gemeente omgaat met persoonsgegevens. Een privacy officer geeft advies over het informatieproduct met een Privacy Risk Assessment (PRA) of een Data Protection Information Assessment (DPIA). Een positief advies maakt het product meer betrouwbaar en van hogere kwaliteit.
2. Beveiliging
Zorgen dat alleen de juiste mensen toegang hebben tot de juiste gegevens is een van de belangrijkste uitdagingen voor het borgen van de informatiebeveiliging. Gericht advies door een security officer over te nemen maatregelen en de uitvoer daarvan, is een belangrijk onderdeel in de score voor het betrouwbaarheidslabel.
3. Ethiek
Binnen de huidige wet- en regelgeving, zoals de AVG, mogen we voor onze publieke taak persoonsgegevens gebruiken. De vraag is of je dit altijd moet willen. Om deze afweging te maken, zetten we onder begeleiding van de ethiek adviseur De Ethische Data Assistent (DEDA) in. Een DEDA is een tool die helpt om ethische vraagstukken bij dataprojecten tijdig te herkennen en gemaakte keuzes te documenteren. Dat laatste eist de AVG ook van ons. Bij algoritmetoepassingen met een hoog risico voeren we in plaats van de DEDA een Impact Assessment Mensenrechten en Algoritmes (IAMA) uit. Hiermee maken we het product ook betrouwbaarder en van hogere kwaliteit.
4. Algoritme
Het gebruik van software die voorspellingen doet, beslissingen neemt of adviezen geeft door gebruik van data-analyse, statistiek of zelflerende logica, heeft impact op burgers of bedrijven. Daarom voeren we een Algoritme Risk Assessment (ARA) uit. Bij een hoog risico komt daar zoals bij ethiek vermeld ook een IAMA bij. Elke algoritmetoepassing die in het algoritmeregister is opgenomen, draagt bij aan de transparantie en daarmee de betrouwbaarheid van het informatieproduct.
5. Informatiebeheer
Wat is het digitale geheugen van de gemeente? Digitale informatie is vluchtig en daardoor kwetsbaar. Niet alleen het archiveren is belangrijk, maar ook de informatie vindbaar, beschikbaar toegankelijk en leesbaar maken vraagt om aandacht. Voor een informatieproduct moet duidelijk zijn wat de bewaartermijn is en waar je het product kan vinden en gebruiken. Een advies van een specialist zorgt voor een hogere score van het betrouwbaarheidslabel.
6. Datalogistiek
Welk proces is doorlopen om ruwe databronnen om te zetten tot een informatieproduct? Welke technische omgeving gebruik je, hoe zijn de bronnen geïntegreerd en hoeveel data stroomt er door het platform? Van wie zijn de databronnen (verantwoordelijkheid) en welke maatregelen werden er genomen om de kwaliteit goed te houden? De juiste antwoorden op deze vragen verbeteren de betrouwbaarheid van het informatieproduct.
7. Specificaties
Zijn de technische en functionele specificaties beschreven van het informatieproduct? Is de data gemodelleerd? Welke data-elementen zijn aanwezig, en welke filtering pas je toe? Als deze specificaties ontbreken is het lastig, zo niet onmogelijk, om de informatie op bijvoorbeeld een dashboard te duiden. Goede specificaties leveren een betrouwbaarder informatieproduct.
8. Definities
Met definities van data-elementen hebben gegevens een duidelijke betekenis. Dat heeft bij de invoer van gegevens direct gevolgen voor de datakwaliteit. En wat gebeurt er als je de data uitwisselt met andere bronnen? Dan is het vergelijken en combineren van gegevens makkelijker en is het informatieproduct bruikbaarder.
9. Datakwaliteit
Datakwaliteit geven we een score met de aan- of afwezigheid van een datakwaliteitsdashboard van de brongegevens én van het informatieproduct. Aanwezigheid van zo’n datakwaliteitsdashboard maakt het voor de gebruiker mogelijk om te bepalen of de data betrouwbaar zijn. Verder kan de gebruiker op het dashboard zien welke data-elementen een hoge kwaliteit hebben en welke elementen niet. Voor elk gebruiksdoel zijn de kwaliteitseisen immers verschillend.
10. Acceptatietest
Na de oplevering van het informatieproduct is de acceptatie door de broneigenaren, de afnemer én een tweede ontwikkelaar een indicatie voor een betrouwbaar product.
Toepassing praktijk
Na validatie van het betrouwbaarheidslabel is nog een aantal stappen nodig voordat we het label écht in kunnen zetten. Zo is een proces nodig voor het bepalen en up-to-date houden van het label. En moeten we het label als metadata opnemen in onze gegevenscatalogus. Pas dan kan de afnemer van een bestaand product snel een risico-inschatting maken. Daarnaast zijn communicatie en bewustwording nodig voor het vertrouwen in de toepassing van het label.
Een informatieproduct met een label A staat voor producten met een hoge impact en is bruikbaar bij strategische besluitvorming. Het product is gecontroleerd tot stand gekomen en op de tien criteria is een positieve score behaald. Het omgekeerde zien we bij producten met label E. Het advies is om deze producten überhaupt niet te gebruiken, omdat ze niet voldoen aan de AVG, veiligheidsstandaarden, en aan de richtlijnen voor ethiek en algoritmetoepassingen. De eerste vier criteria vormen dus de belangrijkste criteria bij de risicobepaling.
Met bovenstaande criteria hebben we nog geruime tijd labels met lage scores. Maar is een informatieproduct met een label D per definitie slecht? Als iemand het product nodig heeft om te experimenteren met data waarschijnlijk niet. Keuzes die gemaakt zijn voor de ontwikkeling van het informatieproduct kunnen gerechtvaardigd zijn voor het doel. En dankzij de labels is het transparant.