Wordt ChatGPT de elektrische deurbel van de 21e eeuw?
Eind 19e eeuw kwam de elektrische deurbel op. We kunnen het ons nu niet voorstellen, maar destijds riep dat ook kritiek op. Want toen we als mens niet langer zelf ‘onder de motorkap’ konden zien hoe dat werkte zouden we ons eigen denk- en redeneervermogen weleens kunnen verliezen.
Anderhalve eeuw later worden AI-toepassingen zoals ChatGPT ontvangen met een mengeling van ongebreideld enthousiasme en angst voor de mogelijk verwoestende kracht. Ook nu komt de vraag op of de Large Language Models onder de spreekwoordelijke motorkap wel doen wat ze moeten doen en wat de sociale gevolgen zijn als we dat niet weten. De vraag komt op of de resultaten wel valide zijn. Of het model wel doet wat het moet doen. En daarmee bijvoorbeeld ook of er geen vuilnisbelt aan informatie zal ontstaan. Ter indicatie: Deense onderzoekers deden al een tamelijk radicale voorspelling: dat meer dan 99 procent van ons internet ergens tussen 2025 en 2030 zal bestaan uit AI content.
Wetenschapsfilosoof Karl Popper leert ons met zijn falsificatietheorie dat elk model toetsbaar en/of weerlegbaar moet zijn. Dat uitgangspunt zou ook moeten gelden voor de resultaten die AI-modellen ons opleveren: deze moeten statistisch zijn te verantwoorden. Maar dat is verre van eenvoudig, vooral vanwege de complexiteit die natuurlijk veel groter is dan die van de elektrische draadjes die de deurbel in werking zetten. Hoe complexer het onderliggende model is, hoe lastiger de statistische onderbouwing.
Falsificatie
Dat is geen reden tot wanhoop, wel een reden om hard op zoek te gaan naar manieren om op een verantwoorde manier falsificatie te doen, zowel wetenschappelijk als maatschappelijk. Wetenschappelijk is dit domein ‘hot’: er wordt veel onderzoek gedaan om de resultaten van AI-modellen te toetsen. Met wisselend succes. Maatschappelijk zien we de aandacht terug in onder meer nieuwe wet- en regelgeving. De Europese AI Act is daarvan een voorbeeld en werkt met een classificatie van AI-toepassingen. Simpel gesteld is er voor sommige toepassingen van AI niet zoveel waarborg of statistische validatie nodig, omdat de risico’s niet zo groot zijn als het een keer misgaat. Voor andere toepassingen is dat echter wel het geval en dan legt de richtlijn de lat een stuk hoger door eisen te stellen aan toezicht en monitoring.
Belletje lellen
De tijd zal leren of dat werkt. Diezelfde tijd leerde ons de afgelopen anderhalve eeuw ook dat niemand nog twijfelt aan de deurbel. Niet omdat deze de theorie van Popper aankan, maar simpel omdat ervaring in het gebruik leert dat het werkt en vertrouwen oplevert. Zou het kunnen dat ChatGPT de deurbel van de 21e eeuw wordt? En dat we eerst nog wat vaker belletje moeten lellen voordat we dat stadium bereiken?
Deze weblog werd als column gepubliceerd in iBestuur Magazine #48