Hoe kun je weten of een AI (Artificial Intelligence) systeem te vertrouwen is? Naast onderzoek vereist dit een continue gesprek tussen regelgevers, toepassers, onderzoekers en de maatschappij. De voorgestelde AI Regulation geeft bijvoorbeeld aan dat zoiets in “regulatory sandboxes” kan gebeuren. Zodat we niet in de situatie hoeven te belanden dat er “enge A-nummers” in een systeem zitten.
Beeld based on Pixabay
In de eerdere iBestuur bijdrage over het AI Oversight Lab wordt aangegeven hoe een nationale faciliteit er uit kan zien die AI toepassingen beoordeelt.
In deze bijdrage ga ik dieper in op het onderzoek naar ‘betrouwbare AI’: hoe werkt dat dan onder de motorkap? Hoe ver zijn we, en welke uitdagingen liggen er nog? Als AI net zo alomtegenwoordig en belangrijk in ons leven wordt als, bijvoorbeeld, industrieel geproduceerd voedsel, dan moeten we hier antwoorden op hebben! Voor dat voedsel zijn E-nummers bedacht; zouden er voor AI-systemen A-nummers nodig zijn?
Betrouwbare AI
In het advies van de AI High Level Expert Group over ‘Trustworthy AI, dat een belangrijke input voor die voorgestelde AI regulation is, wordt een zevental eisen geformuleerd. Vier van die eisen gaan over kenmerken van het systeem zelf: ongewenste discriminatie door AI (bias), inzicht in de werking van de AI (explainable), omgaan met vertrouwelijke data (secure) en de manier waarop zelflerende AI adaptief maar ook robuust reageert op veranderend gedrag van mensen (co-learning).
Bias
AI is een vergrootglas voor vooroordelen. Deze vooroordelen (bias) is niet te vermijden en is ook niet altijd slecht: een arts zal leeftijd, geslacht en soms etnische achtergrond meewegen bij het stellen van de juiste diagnose en behandeling, omdat bekend is dat sommige groepen mensen structureel anders op een aandoening en behandeling reageren. Een bekend voorbeeld is het vóórkomen van Diabetes, waarbij het echt nuttig kan zijn om rekening te houden met de afkomst van een patiënt.
AI is een vergrootglas voor vooroordelen.
Wel is het altijd goed om te weten hoe groot een bias is, of dat nu uit de inputdata komt of uit de manier waarop het AI-systeem gebouwd is.
TNO werkt daarom aan een drietrapsraket waarbij bias-detectie, bias-mitigatie en bias-auditing de belangrijkste stappen zijn. We realiseren ons daarbij dat vooroordelen nooit helemaal weg te werken kunnen zijn en dat dat soms ook niet nodig is: zolang een systeem niet automatisch beslissingen neemt, is er altijd nog de mens die uiteindelijk iets daadwerkelijk gaat doen. Als we in staat zijn om die mens ook echt invloed te geven én daarbij kunnen uitleggen waarom het advies van de AI misschien genegeerd moet worden, dan is er al heel veel gewonnen.
Explainable
Bij ‘bias’ kwam het uitleggen al aan de orde. Geautomatiseerde besluitvorming is niet toegestaan, het zal dus altijd een mens zijn die ook daadwerkelijk een besluit neemt. Om de mens ook in staat te stellen een zinnige afweging te maken, zal het systeem zijn advies moeten kunnen uitleggen.
Er zijn veel manieren om een uitleg te geven: door een voorbeeld (“uw symptomen lijken het meest op die van deze andere patiënt, en daarbij was de voorgestelde behandeling effectief”) of door de belangrijkste kenmerken te geven (“omdat u zowel overgewicht hebt als een hoge bloeddruk, is uw kans op diabetes sterk vergroot”).
Het geven van uitleg is om verschillende redenen belangrijk. Bijvoorbeeld voor acceptatie, om een eventuele bias te kunnen herkennen, maar ook als een ‘sanity check’. Een systeem werkt op data, die per definitie een beperkte weergave is van de totale werkelijkheid. Een mens kan die totale werkelijkheid wél meenemen. Alleen al daarom zal de uitlegbaarheid moeten worden ingebouwd. In hoeverre een adequate uitleg ook het vertrouwen in de uitkomst onderbouwt, moet echter nog onderzocht worden.
Secure
AI werkt met heel veel data en naarmate de toepassing van AI nuttiger wordt, zal de benodigde data vaak ook gevoeliger zijn. Dat kan zijn omdat het persoonlijke data betreft, maar ook omdat het concurrentiegevoelige of veiligheidsgerelateerde data betreft. In het “whitepaper Eindelijk een privacy vriendelijke manier om data te benutten”:https://www.tno.nl/nl/aandachtsgebieden/informatie-communicatie-technologie/roadmaps/data-sharing/secure-multi-party-computation/zo-benut-je-data-op-een-privacyvriendelijke-manier/ staat beschreven hoe er ook met vertrouwelijke data op een verantwoorde manier gewerkt kan worden. Kort gezegd: de data wordt niet, of alleen in onleesbare vorm, met andere partijen gedeeld en tóch kunnen ze er een van te voren nauwkeurig bepaalde berekening mee doen. Zo is het mogelijk om bijvoorbeeld het verband te leggen tussen gegevens over de levensstijl van mensen en de kans dat ze diabetes-type 2 ontwikkelen, zonder dat deze gevoelige data, die bij verschillende organisaties aanwezig is, naast elkaar gelegd worden.
De eis dat data soms niet mag worden gedeeld leidt tot paradoxale problemen. Hoe kun je vaststellen of er bias in trainingsdata zit, zonder dat je die data zelf mag bekijken? Hoe kun je de uitkomst van een AI-algoritme uitleggen aan de gebruiker als je de gegevens waar het op gebaseerd is niet mag laten zien?
Het laatste probleem proberen we bij TNO op te lossen door kunstmatige (synthetische) data te maken die gemiddeld gesproken wél precies dezelfde kenmerken heeft als de echte data. De kunst is om te voorkómen dat je op basis van voldoende fake voorbeelden toch kunt achterhalen wat de werkelijke data is. En om er voor te zorgen dat de gegeven voorbeelden niet compleet onzinnig zijn.
Co-learning
Een laatste aspect waar TNO aan werkt is co-learning. Wij verwachten dat het sterk aan belang gaat winnen. Immers, echt ‘slimme’ systemen zijn in staat om zich aan te passen aan de voorkeuren en het gedrag van de gebruiker; ook zijn ze in staat om zich aan te passen aan nieuwe omstandigheden. Andersom zullen mensen, omdat ze ondersteund worden door systemen, zich nieuwe vaardigheden eigen maken en dus hun gedrag gaan veranderen.
Zo hebben we gezien dat jonge kinderen van een robotje (Charlie) kunnen leren beter om te gaan met hun diabetes. Als een advies steeds verkeerd opgevolgd wordt, zou het systeem misschien het advies op een andere manier moeten geven. Of, als de patiënt van een advies een gewoonte gemaakt heeft, hoeft het systeem het niet meer dagelijks te noemen.
TNO onderzoekt onder welke voorwaarden de positieve effecten optreden.
Dit effect, dat mensen en machines elkaar wederzijds beïnvloeden en van elkaar leren, wordt ook wel co-learning genoemd. De uitdagingen zijn groot en de implicaties zijn dat mogelijk ook. Aan de negatieve kant komen woorden als tunnelvisie en vicieuze cirkel op. Aan de positieve kant komen termen als empowerment en ‘human machine teaming’ op. TNO onderzoekt onder welke voorwaarden de positieve effecten optreden, en hoe je kunt vaststellen dat die ook daadwerkelijk optreden.
We onderzoeken momenteel een aantal uitdagingen. Een ervan is ‘calibrated trust’. De mens moet niet te veel waarde hechten aan het advies van een systeem (de AI kan het fout hebben) maar zichzelf ook niet te kort doen door een advies te negeren. Idealiter zal de mens de betrouwbaarheid van het systeem op precies de goede manier moeten inschatten. Het systeem kan daar bij helpen, maar de vraag is natuurlijk hoe dat precies moet gebeuren.
Een andere uitdaging is hoe je een systeem kunt laten leren van menselijk gedrag. Het concept ‘zelflerende systemen’ klinkt een beetje eng: wat leert zo’n systeem dan allemaal en kunnen we dat wel in de hand houden? Wie garandeert dat het systeem niet de verkeerde kant op leert? Met andere woorden, is het gedrag van het systeem wel robuust en blijft het betrouwbaar?
Daarom onderzoeken we op welke manier het beter kan: kun je als menselijke gebruiker expliciet aangeven ‘dit is goed’, of ‘nee, dit advies moet beter want je hebt dit-en-dat over het hoofd gezien’. Op welke manier kan de menselijke gebruiker zijn kennis het best aan een systeem duidelijk maken?
Conclusie
Het is duidelijk dat het begin van de antwoorden op de vragen uit de introductie in zicht begint te komen: bias kun je detecteren, uitleg kan op verschillende manieren gegeven worden, het kan allemaal zonder privacy onnodig te compromitteren en we kunnen met onze menselijke kennis AI corrigeren. Maar zijn dit nu alle dingen die van belang zijn voor verantwoorde AI? Nee, zeker niet. Vier van de zeven eisen van de High Level Expert Group gingen over aspecten van het systeem, maar de drie andere over de manier van omgaan met AI zijn net zo relevant.
Een vergelijking met de voedselindustrie: de productie van veilig voedsel is heel goed geregeld, maar door verkeerd transport, opslag of gebruik van voedingsmiddelen kunnen toch nog tot problemen optreden. Ook verantwoord ontworpen AI kan op een verkeerde manier worden ingezet. Dus met alleen technisch betrouwbare AI zijn we er niet.
De voedselindustrie kent nóg een interessant concept: “E-nummers”. Deze zijn bedacht om duidelijk te maken dat bij de productie van het voedsel alleen goed geteste toevoegingen zijn gebruikt. Helaas heeft het slecht uitleggen hiervan en een gebrek aan kennis soms geleid tot de versimpelde perceptie bij het publiek: “E-nummers zijn chemische rotzooi, dus eng”.
De uitleg van de betekenis van AI en de kennis om die uitleg op waarde te kunnen schatten is van het grootste belang.
We doen er goed aan als we voor het gebruik van AI algoritmes niet in dezelfde valkuil stappen. Dat betekent dat uitleg van de betekenis van AI en dat kennis om die uitleg op waarde te kunnen schatten van het grootste belang zijn. Naast onderzoek zoals hierboven beschreven vereist dat een continue gesprek tussen regelgevers, toepassers, onderzoekers en de maatschappij. De voorgestelde AI Regulation geeft bijvoorbeeld aan dat zoiets in “regulatory sandboxes” kan gebeuren en dat vinden wij een uitstekend idee. We roepen iedereen met een AI-uitdaging op om hierover met TNO in gesprek te gaan! Zodat we niet in de situatie hoeven te belanden dat er “enge A-nummers” in een systeem zitten, maar er op kunnen vertrouwen dat de algoritmes echt te vertrouwen zijn.
Freek Bomhof is business consultant en projectmanager bij TNO
Beste Freek Bomhof,
kleine opmerking de term “A-nummer” is al ingebruik door RvIG vanwege het unieke nummer voor burgers. Misschien handig een andere definitie te gebruiken om verwarring te voorkomen.
Met vriendelijke groet,
Harmjan Menninga
Dag Harmjan,
Goede opmerking! Het idee voor ‘A-nummers’ vind ik echt nuttig, maar de naamgeving ervan is voor verbetering vatbaar!
Groet,
Freek Bomhof