Van ‘nomap’ naar ‘notrain’ en ‘nocause’
Het afgelopen jaar heeft de wereld kennis gemaakt met de stochastische papegaai ChatGPT die al onze uitingen absorbeert en reproduceert. De papegaai roept verbazing en enthousiasme op, maar ook onrust, zowel over de stille vergaring van input als over de statistische aard van de output. Lees hier een door een mens geschreven beschouwing.
Ongebreidelde toe-eigening in de publieke ruimte
Herinnert u ze zich nog, de auto’s van Google Street View die rond 2010 overal op de openbare weg verschenen, met ronddraaiende camera’s en afstand metende lasers op het dak, om alle straten en huizen in kaart te brengen? De informatie is gebruikt voor Google Maps, waar velen van ons dagelijks gebruik van maken. Die auto’s haalden echter meer op dan alleen locaties en beelden van straten en huizen. Ze pikten ook de namen en adressen van de draadloze wifi netwerken op, de zogenaamde ssid’s (service set identifiers), die dicht bij de bron in woonhuizen en kantoren opgevangen kunnen worden. De namen van deze privé-netwerken zijn door Google onder andere gebruikt om de plaatsbepaling op Android telefoons te verbeteren, in aanvulling op de GPS-signalen van satellieten.
Dwangsom
Over het verzamelen en verwerken van de gegevens van deze privé netwerken is destijds enige oproer ontstaan. De Autoriteit Persoonsgegevens heeft in 2011 aan Google een last onder dwangsom opgelegd. Google wist een principiële discussie over gegevensverzameling in de publieke ruimte te omzeilen en stelde een praktische “oplossing” voor: wie niet wilde dat de gegevens van het eigen wifi netwerk verwerkt zouden worden, moest aan de netwerknaam ‘nomap’ toevoegen, als in ‘jacobs_thuis_nomap’. Google beloofde om ssid’s met deze ‘nomap’ extensie te negeren. Ik geloof dat ik in mijn omgeving de enige ben die ‘nomap’ (nog) gebruikt. Deze zogenaamde oplossing van Google is niet aangeslagen. Het verzamelen van netwerkgegevens is wel gewoon doorgegaan.
Nieuwe toeëigening voor grote taalmodellen
De ChatGPT software die het afgelopen jaar gelanceerd is maakt deze kwestie weer actueel. ChatGPT genereert teksten op basis van zogenaamde large language models. Zulke modellen zijn gebaseerd op statistisch geclassificeerde taalpatronen en worden ‘getraind’ met gigantische hoeveelheden tekst en plaatjes. Ook hier is sprake van stille diefstal in de openbare digitale ruimte (ook wel enclosure of the commons genoemd, zie het recente boek ‘Wat we gemeen hebben‘, van de Groningse filosoof Thijs Lijster). Wordt er toestemming gevraagd om de teksten en plaatjes die u en ik online zetten te gebruiken voor het trainen van zulke large language models? Welnee! Zou dat moeten? Dat is vooralsnog (juridisch) onduidelijk. Verschillende kunstenaars zijn rechtszaken begonnen tegen OpenAI, het bedrijf achter ChatGPT, over het gebruik van hun werk om de modellen te trainen.
De sector is zich bewust van de problematiek en heeft bijvoorbeeld de website haveibeentrained.com ingericht waar gebruikte plaatjes getoond worden en waar men het gebruik ervan voor trainingsdoeleinden kan uitsluiten. Sommige van mijn foto’s zitten er ook tussen. Ik heb op mijn persoonlijke website een foto van mijzelf staan, zodat mensen mij kunnen herkennen, bijvoorbeeld bij afspraken. Maar die foto is niet bedoeld om bedrijven te laten kunnen afleiden hoe een eigenwijze hoogleraar informatica er gemiddeld uit ziet. Moeten we toe naar nieuwe afspraken waarbij ik mijn foto een extensie ‘notrain’ moet geven om gebruik voor trainingsdoelen uit te sluiten? Die oplossing gaat ook niet werken, net zo min als de ‘nomap’ extensie bij wifi. Maar het is wel duidelijk dat het gebruik voor privaat gewin van middelen die voor een ander doel publiek gemaakt zijn gereguleerd moet worden. Daarbij lijkt het me onvermijdelijk dat meer data explicieter gelabeld moeten gaan worden, zoals via (uitbreidingen van) Creative Commons, zodat duidelijker is welke data wel openlijk gebruikt kunnen worden en welke niet.
Correlatie en causaliteit
Niet alleen de input van ChatGPT is problematisch, maar ook de ouput. De software reproduceert veel voorkomende patronen en zet ze om tot een samenhangende tekst – en is daarmee een stochastische papegaai met een enorm geheugen. Het is moeilijk om te herkennen dat een tekst van ChatGPT afkomstig is, en niet van een mens. Maar we moeten ons blijven realiseren dat ChatGPT gebaseerd is op statistische samenhang (correlatie) en niet op oorzakelijke samenhang (causaliteit). Dat verschil is cruciaal: er is een statistisch verband tussen longkanker en de aanwezigheid van asbakken. Zijn asbakken daarmee de veroorzakers van longkanker? Nee, natuurlijk niet! Er is sprake van een derde ongenoemde factor, namelijk roken. Dit heet een confounding factor. Er is wel een oorzakelijk verband tussen roken en longkanker en tussen roken en de aanwezigheid van asbakken. ChatGPT heeft geen enkele weet van dergelijke oorzaken. ChatGPT vertelt ons niet wat waar is, enkel wat statistisch samenhangt. Dit kan niet genoeg benadrukt worden. Bij het gebruik van zoekmachines hebben we door de jaren heen geleerd dat de uitkomsten ongeveer kloppen, dat zakelijke belangen meespelen bij de resultaten (zeker bij de eerstgenoemde), en dat we verder moeten kijken om te begrijpen wat er aan de hand is. De zoekresultaten zijn behulpzaam, maar het echte werk zullen we zelf moeten blijven doen. De aanvankelijke zorg Is Google making us stupid? is niet uitgekomen. De omgang met ChatGPT is een grotere uitdaging.
Neiging tot causaliteit
Waar ChatGPT enkel statistische verbanden ziet, zijn wij mensen geneigd te denken in termen van oorzakelijke verbanden. Om dit te illustreren geef ik hieronder twee korte zinnen, in verschillende volgordes. De informatie is in beide gevallen hetzelfde. Let goed op het verschil in effect.
– Anne is ziek; Bob kookt.
– Bob kookt; Anne is ziek.
En? Het is opvallend hoe sterk de neiging is om direct een causaal verband zoeken. Eerst kookt Bob omdat Anne ziek is, maar daarna is Anne ziek omdat Bob kookt.
Het is fascinerend om te zien hoe sterk de neiging is van onze geest om zelf een oorzakelijk verband toe te voegen. De filosoof herkent Kant. Die neiging zal vast evolutionair bepaald zijn, waarbij we achter bepaalde geluiden een oorzaak zoeken in de vorm van gevaar (of een kans). Maar we zijn als mensheid evolutionair absoluut niet toegerust om om te gaan met systemen als ChatGPT die ons goed geschreven statistische samenhangsels voorschotelen, waar wij grotendeels onbewust causaliteit aan toe gaan kennen. Dit is een epistemologische uitdaging waar we (nog) niet tegen opgewassen zijn en die ontwrichtend kan uitwerken: wat is kennis, hoe moeten we die toetsen, en hoe onderscheiden we nepnieuws?
De roep om regulering van systemen als ChatGPT zwelt aan. Een suggestie is om in teksten van ChatGPT de achterliggende waarschijnlijkheden expliciet te maken, via formuleringen als: ‘waarschijnlijk …’, ‘het komt vaak voor dat …’, ‘regelmatig …’, ‘het lijkt er niet op dat …’ enzovoort.
Een andere suggestie is dat ook de output van ChatGPT een eigen herkenbare extensie krijgt: ‘nocause’.
Voor meer informatie, zie zijn persoonlijke webpagina bij de universiteit.
Het toe-eigenen van informatie is één ding, het ‘hergebruiken’ zonder de juiste context, maakt het geheel nog veel zorgelijker. Al een paar dagen (uren?) na de lancering van ChatGPT, was er al een ‘jailbreak’ hack, DAN (Do Anything Now). ChatGPT werd gevraagd een rollenspel te spelen en de antwoorden te geven die het zou geven zónder de ethische grenzen die het door OpenAI was opgelegd. Het resultaat: o.m. een lijst van mensenrassen op intelligentie gesorteerd. Zonder bronvermelding wordt dit soort antwoorden door een bepaalde groepen mensen als de absolute waarheid gezien.Immers, ChatGPT kan toch het héle internet afzoeken en zo ‘de waarheid’ naar boven brengen? Dat veel antwoorden tegenstrijdig zijn, afhankelijk van de vraag, gaat hen voorbij. Het is daarmee wederom een bevestiging van denkbeelden die al door de social media algoritmen werd onderschreven (mensen meer van het zelfde voeren om ze maar ‘aan boord’ te houden). Dus naast alle plagiaat, illegaal brongebruik, onrechtmatig persoonsgegevens verzamelen ( tweakers.net/nieuws/208264/italie) hebben we óók te maken met lezers-bias bevestiging. Het mínste dat verplicht zou moeten worden is een degelijke bronvermelding bij elke gegenereerde tekst. Dat moeten mensen immers ook.