‘Safety Washing’ bij de AI Safety Summit in het Verenigd Koninkrijk
Met de recente AI-top in Bletchley Park en alle legitimiteit die wereldleiders eraan hebben gegeven, heeft de internationale beleidsdiscussie over de risico’s van AI een verkeerde afslag genomen en neigt deze steeds meer naar “safety washing”. Er is dringend behoefte aan een meer democratische aanpak die gebaseerd is op toetsbare en wetenschappelijk onderbouwde analyses van de materiële schade en bijbehorende veiligheidsrisico’s, een brede inspraak van belanghebbenden, en stevige grenzen aan het gebruik van AI in specifieke contexten waarin schade reeds goed gedocumenteerd en zichtbaar is.
Recent kwamen techbedrijven en wereldleiders bijeen in Bletchley Park in het Verenigd Koninkrijk om te discussiëren over het bestuur van AI, persoonlijk gepresenteerd door de Britse premier Rishi Sunak. Ook demissionair staatssecretaris voor Digitalisering Alexandra van Huffelen was van de partij.
In een poging om te begrijpen wat overheden moeten doen om de risico’s van snel ontwikkelende AI-technologie te bedwingen, interviewde Sunak techmagnaat Elon Musk. Voor veiligheidsexperts was dat al een alarmbel, aangezien Musk een erbarmelijke staat van dienst heeft op het gebied van veiligheid, wat blijkt uit het herhaald negeren van wettelijke normen alsmede het advies van zijn eigen veiligheidsingenieurs, zowel bij Tesla als recent bij Twitter, meermaals met fatale gevolgen. De foutieve en gevaarlijke aannames achter de AI Safety agenda gecentreerd rond zogenoemde ‘frontier models’, zoals omarmd door Sunak en in mindere mate Biden, moeten worden blootgelegd.
Zowel bestaande als nieuwe risico’s en schade blijven buiten beeld
Onlangs lieten Politico-verslaggevers zien hoe zowel de beleidsteams van Biden als die van Sunak geïnfiltreerd zijn door AI policy fellows die een agenda helpen bevorderen die gericht is op existentiële risico’s van steeds bekwamer wordende AI-systemen. Deze fellowposities dichtbij de machthebbers zijn via slimme omwegen gefinancierd door onder andere tech-miljardairs. Velen van hen behoren tot de ‘effective altruïsm-beweging’, tot voor kort inclusief cryptocrimineel Sam Bankman-Fried, die zich primair zorgen maken over de bedreigingen op lange termijn die toekomstige AI-systemen kunnen vormen voor het voortbestaan van de mens.
Velen hebben gewezen op het probleem van het focussen op risico’s van technologieën die in de toekomst liggen en nog niet werkelijkheid zijn geworden, en die leunen op problematische aannames over superintelligentie; scenario’s waarvan alleen sciencefictionboeken het bestaan bewijzen. Het trekt de aandacht weg van goed bestudeerde en gedocumenteerde schade en mensenrechtenschendingen die AI-systemen aanrichten. Daarnaast dreigt de nauwe focus van populaire AI Safety methodes ook weinig tot niet bij te dragen aan de mogelijk opkomende risico’s.
Wat namelijk minder besproken wordt, is dat de populaire AI Safety benadering, die aangeprezen worden om existentiële risico’s te voorkomen en die meestal intern bij techbedrijven ontwikkeld worden, weinig te maken hebben met daadwerkelijke veiligheidswetenschap en standaarden voor software-gebaseerde automatisering. Zo wordt het ‘super alignment team’ van OpenAI geleid door computerwetenschappers. Hun technieken om te ‘leren van menselijke feedback’ richten zich op het AI-model en dragen bij aan ‘acceptabelere en betrouwbaardere outputs’. Maar de geschiedenis van veiligheid leert ons dat betrouwbaardere software niet noodzakelijkerwijs veiliger is.
Een veilig frontier model is een contradictio in terminis
De technocentrische AI Safety-methoden zijn vooral gericht op het ‘programmeren van veiligheid in AI-modellen en software zelf’. Deze volstaan niet om risico’s af te vangen die in een overvloed aan toepassingen en praktijken opkomen. Dit komt voornamelijk doordat er gebreken zijn in ‘frontier-modellen’ die tot schade leiden, met name door de manier waarop deze interacteren met mensen, andere technische systemen en de bredere context van toepassing.
De term frontier-model heeft de laatste tijd aan populariteit gewonnen en verwijst naar een “zeer capabel basismodel dat gevaarlijke capaciteiten zou kunnen vertonen, inclusief significante fysieke schade of de verstoring van belangrijke maatschappelijke functies op wereldschaal.” Deze definitie geeft al aan dat er inherente problemen ingebakken zitten in het model. Echter de veiligheidsrisico’s die voortkomen uit complexere modellen hebben niets te maken met “capaciteiten” of “intelligentie”, noch met het vermogen om de mens “te slim af te zijn” en de daarmee samenhangende scenario’s voor existentiële risico’s.
Integendeel, het is in de veiligheidsdiscipline al decennia bekend dat software onveilig wordt als het te complex wordt en er niemand is die voor de kwaliteit ervan garant kan staan, omdat niemand begrijpt waar het wel en niet aan kan voldoen. Dergelijke ingebakken risico’s van frontier-modellen staan bekend als een uitdrukking van de ‘flexibiliteitsvloek’ voor software-systemen. Voor grote taalmodellen die momenteel worden gepromoot door de techindustrie, zijn dergelijke risico’s dus ingebakken in hun ontwerp. De vloek wordt erger als organisaties die nieuwe producten en toepassingen bouwen bovenop dergelijke modellen geen inzicht kunnen krijgen in hoe de modellen en software in elkaar zitten. Een ‘veilig frontier model’ is daarmee per definitie een contradictie. Anders gezegd, frontiermodellen zijn inherent onveilig, en per applicatie moet worden bezien of en hoe men bereid is om deze risico’s te accepteren.
Certificering is een ineffectieve en gevaarlijke beleidsroute
Als we onderschrijven dat we risico’s niet op het niveau van een model kunnen afvangen, dan wordt het ook duidelijk dat certificering of licenties voor frontier-modellen nooit in staat zullen zijn om veiligheidsproblemen met betrekking tot de flexibiliteitsvloek op te lossen. Deze beleidsbenadering wordt breed gezien als een manier om een “moat” (Nederlands: een slotgracht) te bewerkstelligen, een populaire term in de techwereld die refereert naar een duurzaam competitief voordeel. Het idee van de licensieroute is dat AI-bedrijven zelf aantonen of hun model voldoet aan bepaalde voorwaarden, daarbij toegezien door de voorgestelde AI Safety Instituten (vooralsnog in de VS en het VK). Het is niet moeilijk voor te stellen dat deze vorm van zelfregulering met een halfbakken vorm van toezicht het vermogen van technologiebedrijven om hun producten geheim te houden alleen maar zal versterken, zonder dat zij gestimuleerd worden om zich zorgen te maken over de feitelijke veiligheidsrisico’s van hun gebrekkige modellen, die meestal naar voren komen in de context van het gebruik. Deze groeiende monopoliemacht is daarmee op zichzelf een grote bron van risico’s.
Pindaschandaal
Het gebrek aan respect voor basisveiligheidsnormen en de hebzucht van AI-bedrijven doen denken aan het Amerikaanse pindaschandaal in 2008. Pinda’s, geproduceerd door Peanut Corporation of America, werden blootgesteld aan salmonella ondanks de aanwezigheid van een certificeringssysteem. Toen de pinda’s van het bedrijf positief werden getest op salmonella, gaf CEO Stewart Parnell zijn personeel de opdracht om de pinda’s opnieuw te testen totdat er een negatief resultaat was. Ze hergebruikten ook eerdere negatieve tests om positieve testresultaten te maskeren, en besmette pinda’s bleven verscheept worden en kwamen in bijna 4000 verschillende producten terecht. Honderden mensen werden ziek en negen mensen kwamen te overlijden. In 2015 werd Parnell veroordeeld tot 28 jaar gevangenisstraf voor het verkopen van ziekmakend voedsel.
Het is niet overdreven om een parallel te trekken met het gedrag van het ‘frontier model’ bedrijf OpenAI vandaag de dag. Hun schaamteloze strategie om schendingen van het auteursrecht uit te vechten met creatieve professionals en content creators in de rechtszaal (ze bieden zelfs financiële steun aan ChatGPT-gebruikers die voor copyright-schending worden aangeklaagd) hun publieke vraag aan Amerikaanse politici om gereguleerd te worden terwijl ze er bij de EU stilletjes tegen lobbyen, hun erbarmelijke behandeling van werknemers die data filteren en labelen en “menselijke feedback voor machine learning” leveren, en de geheimhouding over de hoge energie- en milieukosten van de gigantische rekenkracht in data centers, zijn allemaal tekenen aan de wand dat het bedrijf zich niets aantrekt van de schadelijke gevolgen van hun activiteiten. Niet alleen zal het “testen” en licenseren van frontier-modellen weinig doen voor de echte veiligheid, we zouden ook niet verbaasd moeten staan als bedrijven zoals OpenAI manieren vinden om hun modellen te testen en te hertesten op hedendaagse digitale ziekteverwekkers, zoals misinformatie of haatzaaiende taal, en strategieën ontwikkelen om impact op hun omzet en winst te voorkomen. Profiteren van maatschappelijke schade is een vaak voorkomend businessmodel in de (tech)industrie.
Wat dan wel?
De systeemveiligheidsdiscipline, die al decennia lessen en inzichten verzameld voor softwaregebaseerde automatisering in sectoren zoals kernenergie of de luchtvaart, biedt direct beschikbare lessen en methoden die een basis kunnen vormen voor het diagnosticeren en aanpakken van schade in AI-gebaseerde processen, zowel van bestaande als van mogelijk opkomende veiligheidsrisico’s. Het gebruik en de verdere ontwikkeling van dergelijke methoden kan laten zien waar nieuwe AI-technieken onaanvaardbare risico’s veroorzaken en welke mechanismes nodig zijn om aanvaardbare risico’s toe te staan. Belangrijk hierbij is dat hiervoor geen onderscheid nodig is tussen “grote versus kleinere modellen” of “niveaus van capabilititeit”.
Zolang beproefde veiligheidstechnieken niet worden toegepast, ontbreekt een basis waarmee een productieve discussie kan worden gevoerd over tastbare risico’s gebaseerd op feiten en toetsbare aannames. Zonder die basis maken we weinig kans om tot effectieve beleidsdoelen en regelgevende maatregelen te komen, en zal het debat blijven hangen in angstzaaerij en lege marketingfrases.
Op de exclusieve gastenlijst van Sunak ontbraken veel belangrijke stemmen die nodig zijn om de risico’s van AI in te schatten, waaronder groepen die nu al de dupe zijn van uitbuiting en schadelijke gevolgen door AI-gebaseerde toepassingen en systemen. Er is een inclusievere en democratischere benadering nodig om aanvaardbare veiligheidsrisico’s te identificeren en waar nodig uit te onderhandelen. Deze benadering is ook mogelijk, zo blijkt bijvoorbeeld uit de groeiende betrokkenheid van het maatschappelijk middenveld en toezichthoudende instanties, welke tijdens de AI Safety Summit niet uitgenodigd waren, maar zich wel hadden georganiseerd in eigen protestevenementen. De volgende summit in Korea zou het roer om kunnen gooien door deze groepen aan tafel uit te nodigen om de werkelijke risico’s en schade die met AI-systemen worden veroorzaakt, alsmede de benodigde beleidsmaatregelen om deze in te perken, in het vizier te krijgen.
Lees ook: