Rolverdeling tussen AI en mensen schept ruimte voor effectief toezicht
Effectief menselijk toezicht inrichten vergt goed ontwerp. We moeten op technisch en organisatorisch vlak medewerkers ondersteunen om het oneens te kunnen zijn met AI-systemen.
In 1988 schoot het Amerikaanse schip USS Vincennes vlucht 655 van Iran Air uit de lucht, waardoor alle 290 inzittenden omkwamen. De crew van het schip was er namelijk van overtuigd dat het hier ging om een F-14 gevechtsvliegtuig dat onderweg was om hen aan te vallen, en dat zij in direct gevaar waren tenzij er actie ondernomen werd. De automatische systemen gaven aan dat het betreffende stipje op de radar een gevechtsvliegtuig was, dus daar handelden ze naar.
Achteraf bleek er wel degelijk informatie aanwezig die liet zien dat het bij Iran Air-vlucht 655 om een passagiersvlucht ging; het vliegtuig was aan het klimmen en stond netjes geregistreerd in het logboek van passagiersvluchten. In eerste instantie had het automatische systeem het vliegtuig ook goed geïdentificeerd, maar gaf het de tweede keer misleidende informatie omdat de officieren vergeten waren om het systeem te resetten. Daardoor pikte het systeem niet de passagiersvlucht op, maar een stilstaand gevechtsvliegtuig van een nabije militaire basis. Uiteindelijk wisten de officieren die de opdracht gaven niets van deze afwijkende informatie (het logboek was door ontwijkende manoeuvres van de tafel gevlogen, de radar met hoogte-informatie was ver weg van het scherm waarop de vlucht als gevechtsvliegtuig was aangemerkt) en namen ze het noodlottige besluit.
Dit is een heftig voorbeeld van een van de grote uitdagingen van het gebruik van automatische systemen in besluitvoering. We raken afhankelijk van deze systemen, of ze nu goed werken of niet. En het is vaak lastig om effectief toezicht te houden en in te grijpen als het systeem ernaast zit. Dat gold voor de informatiesystemen die de USS Vincennes aan boord had, en geldt net zo goed voor ons huidige gebruik van AI-systemen om besluitvorming te ondersteunen. Als het systeem een bepaalde beslissing voorstelt zonder dat wij verdere informatie hebben die dat tegenspreekt, dan is het al snel lastig om tegen het voorstel in te gaan. Automation bias, onze neiging om systemen relatief snel te vertrouwen en als objectiever te zien dan mensen, helpt daar niet bij mee. Maar vaak is het ook een kwestie van de opzet van de interactie tussen medewerker en het systeem. Dat is veelal een mix van technische keuzes en van keuzes in de governance. Technisch kan er bijvoorbeeld gekozen worden om weinig tot geen andere informatie te tonen, waardoor degene die het menselijk toezicht moet waarborgen feitelijk geen andere keuze heeft dan het algoritme te vertrouwen. Koppel dat aan een instelling waarbij het eens zijn met het algoritme automatisch verwerkt wordt, maar waarbij afwijken van de suggestie gemotiveerd moet worden, en je richt al snel een omgeving in waarbij medewerkers er slechts zitten om op de knop te drukken zonder echt waarde toe te voegen.
Signalen inbouwen dat iets een randgeval is
Gelukkig is er op technisch vlak wel degelijk veel mogelijk om medewerkers juist te ondersteunen. We kunnen bij AI-systemen bijvoorbeeld vlaggetjes op laten gaan op het moment dat er redenen zijn om te denken dat het systeem onbetrouwbaar is; door te signaleren dat iets een randgeval is, of dat de confidence-scores voor deze uitkomst relatief laag zijn. Bij de USS Vincennes zou dat een lampje zijn geweest dat aangaat als het identificatiesysteem niet gereset is. We wisten immers al dat een reset nodig is voor betrouwbare metingen.
Net zo goed zou je meerdere, onafhankelijke, indicatoren kunnen uitwerken en tonen in een overzicht, waarbij het aan de mensen is om die tegen elkaar af te wegen. Op de USS Vincennes was een logboek aanwezig met de passagiersvlucht erin, evenals een scherm waarop de hoogtemetingen voor vliegtuigen stonden. Als die indicatoren naar dezelfde conclusie hadden gewezen (bijvoorbeeld ‘dalend vliegtuig, geïdentificeerd als straaljager en niet geregistreerd in het logboek’) was er een duidelijke reden om het eens te zijn met de systemen. Als ze echter verschillende uitkomsten adviseren dan is dat een duidelijk teken dat dit geval extra aandacht vereist. Hetzelfde kunnen we doen voor digitale informatiesystemen, waarbij dashboards zo ingericht worden dat ze mogelijke indicatoren dat het systeem het fout heeft (door onbetrouwbaarheid of door gemiste informatie die iets anders zegt) inzichtelijk maken.
Die technische aanpak kan zeker helpen. Maar het succes van effectief toezicht staat of valt met de organisatorische richtlijnen voor de medewerkers. De Amerikaanse omgang met het algoritme NarxCare is daar een goed voorbeeld van. Dit algoritme is expliciet bedoeld ter ondersteuning van artsen en apothekers in het verstrekken van verslavende pijnstillers (voornamelijk opioïden). Het gebruikt data uit de patiëntendossiers om een risicoscore op te stellen voor verslaving. Het idee is dat boven een bepaalde score iemand geen nieuwe pijnstillers mag krijgen om verslaving te voorkomen.
Het systeem begrijpt het niet
Nu gaat dat lang niet altijd goed; er is bijvoorbeeld een geval bekend waarbij een vrouw een hoge risicoscore kreeg omdat haar hond medicijnen kreeg en het systeem dat onderscheid niet begreep. Idealiter grijpt de arts dan in, omdat dat de aangewezen persoon is om dit soort nuances te begrijpen en dus om fouten te herstellen. Een heel aantal Amerikaanse staten heeft er echter voor gekozen om in de wet op te nemen dat als een arts niet aantoonbaar gebruikmaakt van NarxCare hij of zij het risico loopt om de beroepsvergunning te verliezen en zelfs strafrechtelijk vervolgd te worden. Alhoewel het hier feitelijk alleen gaat om het raadplegen van het systeem, zie je in de praktijk dat er grote druk ontstaat op het navolgen van het systeem. De vrouw in kwestie kreeg dan ook door die hoge risicoscore geen pijnstillers voorgeschreven. Ongeacht hoe goed je het technisch inricht, als er geen ondersteuning in de richtlijnen is om af te wijken van het systeem dan ontbreekt ook effectief menselijk toezicht.
Te complex voor AI
Wederom is goed ontwerp, dit keer niet op technisch vlak maar institutioneel, goed mogelijk. Een mooi voorbeeld van hoe het anders kan is de New Zealand Accident Compensation Corporation (ACC). Omdat iedereen in Nieuw-Zeeland onder deze nationale (zorg)verzekering valt zijn er jaarlijks zo’n 2 miljoen claims te verwerken, waarvan gemiddeld ongeveer 96 procent goedgekeurd wordt. Om de doorlooptijden te verminderen werd daarom flink ingezet op automatisering.
Een claim kan nu in principe volledig automatisch verwerkt worden. AI-systemen controleren dan of iemand gedekt is door de ACC, of de claim volledig is ingevuld en of hij uitgekeerd moet worden. Het menselijk toezicht is er wel, maar in beperkte mate. Als alle systemen zeggen dat een claim correct is en uitbetaald moet worden, dan gebeurt dat volautomatisch en binnen enkele minuten. De medewerkers komen pas in actie zodra een van de drie systemen van mening is dat er iets aan de hand is. Met de boodschap dat dit een te complexe claim is voor de AI-systemen gaat het dan naar een menselijke medewerker die alles met de hand naloopt. Zo doen zij uitdagend werk (je gaat vanzelf minder opletten als je 95 procent van de tijd op ‘ja’ drukt omdat de computer het werk al voor je heeft gedaan), ondervangen ze impactvolle fouten voor de burgers, en is er een duidelijk aanspreekpunt voor iedere claim die geweigerd wordt. Door een goede rolverdeling te vinden tussen AI en medewerkers ontstaat er ruimte voor effectief menselijk toezicht, met behoud van de voordelen van kunstmatige intelligentie.
Goede balans vinden
Kortom, effectief menselijk toezicht inrichten vergt goed ontwerp. We moeten op technisch en organisatorisch vlak medewerkers ondersteunen om het oneens te kunnen zijn met AI-systemen. Daarbij blijft het een uitdaging om een goede balans te vinden: we willen tegelijkertijd niet dat er fouten insluipen doordat er onterecht tegen een automatische beslissing ingegaan wordt. Dat vraagt om afwegingen; zoals de ACC besloot dat her en der een frauduleuze aanvraag goedkeuren een kostenpost is die ze willen dragen om niet iedere claim langs een medewerker te laten gaan. Maar bovenal kunnen we hier zien dat het mogelijk is om dat toezicht vorm te geven. We kunnen AI-systemen inzetten en ruimte laten voor menselijk inzicht. Het gebeurt alleen niet vanzelf.
Dit artikel is gepubliceerd in iBestuur Magazine #47 van juni 2023