Data, de grondstof voor de 21ste eeuw?

25 augustus 2020

Er zijn visionairs die voorspellen dat kunstmatige intelligentie de traditie van beschrijven, structureren, classificeren en waarderen van informatie overbodig maakt. Of gaan we naar een fundamenteel andere benadering van informatiebeheer en laten we de data spreken? Daar gaat een aantal vragen aan vooraf. Welke methoden hanteren wij nu en welke intelligentie is daarvoor nodig? En kan kunstmatige intelligentie deze menselijke intelligentie overnemen?

Beeld: Gerd Altmann / Pixabay

Welke methoden hanteren wij nu voor informatiebeheer en welke intelligentie is daarvoor nodig? Intelligentie voor informatiebeheer omvat het beschrijven, structureren, classificeren en selecteren van informatie:

beschrijven is het toekennen van metadata,
structureren is het toekennen van relaties,
classificeren is het toekennen van een klasse aan een document of groep documenten,
selecteren is het toekennen van waarderingen.

Het identificeren en toekennen van metadata, relaties, klassen en waarderingen kunnen we zien als de traditionele kern van informatiekennis. Nu we hebben bepaald wat intelligentie voor informatiebeheer is kunnen we verkennen hoe kunstmatige intelligentie hier een rol in kan spelen. Maar eerst gaan we in op kunstmatige intelligentie en waar kunstmatige intelligentie al goed werkt.

Kunstmatige intelligentie

In tegenstelling tot het menselijke brein werken kunstmatige neurale netwerken voor kunstmatige intelligentie niet op basis van chemische en elektronische reacties, maar met wiskundige functies. De wiskundige functies van een neuraal netwerk noemen we ook wel algoritmes. Een algoritme is een stapsgewijze methode voor het oplossen van een probleem of het bereiken van een doel, in het bijzonder door een computer. Algoritmes kunnen verschillende taken vervullen: een geordende lijst maken (denk aan Google), een categorie kiezen (classificatie), links vinden (associaties), filteren (isoleren wat belangrijk is) of een combinatie van het voorgaande. Algoritmes kunnen voorts onderverdeeld worden in twee hoofdmodellen: op regels gebaseerde algoritmes en machine-learning algoritmes. Het machine-learning algoritme is een onderdeel van kunstmatige intelligentie.

Op basis van gecategoriseerde gegevens, bijvoorbeeld foto’s of eenvoudige zinnen worden kunstmatige neurale netwerken getraind. Daardoor zijn ze steeds beter in staat de input te begrijpen, bijvoorbeeld een beeld op een foto te herkennen en te categoriseren. Daarbij gaat het niet om harde resultaten, maar om voorspellingen. Voor het trainen zijn duizenden gecategoriseerde records nodig, records met de input en het gewenste resultaat. Je programmeert dus een algoritme dat uit zichzelf leert om te taak uit te voeren. Het algoritme haalt zo veel mogelijk informatie uit een verzameling gegevens en kan zo een signaal van ‘ruis’ onderscheiden in die gegevens. Kunstmatige intelligentie werkt al heel goed bij specifieke taken met duidelijk omschreven doelstellingen, waarvan de oplossing ad hoc gecontroleerd kan worden, bijvoorbeeld bij spraakverwerking, beeldherkenning of logistieke planning. Een enorme hoeveelheid trainingsgegevens is overigens geen garantie voor succes, het is de kwaliteit ervan die de doorslag geeft.

KI voor informatiebeheer

Op bescheiden schaal worden er in Nederland onderzoek gedaan met het toepassen van kunstmatige intelligentie op informatiebeheer, onder andere door Doc-Direkt, het Nationaal Archief en Netwerk Oorlogsbronnen. De uitkomsten van deze experimenten zijn vooralsnog beperkt in uitvoering en resultaat. Het onderzoek van Doc-Direkt richtte zich op het identificeren van selecties op basis van het automatisch identificeren van klassen. De uitkomst was dat de betrouwbaarheid van de automatische classificatie laag was. Het onderzoek van het Nationaal Archief leverde een minimaal getraind prototype op. Maar de dataset was eigenlijk nog te klein om iets te kunnen zeggen over de nauwkeurigheid en het functioneren van de algoritmen¹ Belangrijkste bevinding van het onderzoek van Netwerk Oorlogsbronnen was dat automatische classificatie “potentie” heeft. “Door de computer te trainen met voorbeelden kunnen soorten documenten met een foutmarge (80 procent correct) worden herkend.”²

Voor deze beperkte resultaten is waarschijnlijk een eenvoudige verklaring te geven, namelijk de ambiguïteit van taal. Van kunstmatige intelligentie verwachten we dat het dezelfde abstracte begrippen opdoet als mensen en de wereld dus begrijpt zoals een mens dat doet. Machines zijn echter fundamenteel anders dan mensen, aldus Meredith Broussard, auteur van Artificial unintelligence. “Wie in een auto rijdt maakt bewust of onbewust heel veel beslissingen. In een machine moeten die expliciet geprogrammeerd worden.”³ Van begrip of zelfs bewustzijn is in de diepste kunstmatige neurale netwerken (nog) geen spoor te bekennen.

‘Tot nu toe is nog niemand erin geslaagd om zelfs maar de intelligentie van een worm voorbij te streven’ – Hannah Fry, Algoritmes aan de macht (2018)

Bij nadere beschouwing ontpoppen kunstmatige neurale netwerken zich slechts als steeds complexere geautomatiseerde statistieken: handig gereedschap, maar geen algemene kunstmatige intelligentie [4]. Volgens Hannah Fry, auteur van Algoritmes aan de macht, is het waarschijnlijk zinvoller om de ontwikkelingen die we hebben doorgemaakt te beschouwen als een revolutie in computerlinguïstiek dan als een revolutie in intelligentie⁵. Bovendien: de relaties die een neuraal netwerk identificeert zijn alleen correlaties die geldig kunnen zijn, maar dat hoeft niet. En zelfs een extreem hoge precisie van 99 procent kan afhankelijk van de toepassing onaanvaardbaar zijn⁶. Een ander nadeel is dat als je een computer een oplossing zelf laat bedenken, de menselijke waarnemer weinig zinnigs kan ontdekken aan de route die de computer neemt om daar te komen.

Data als grondstof?

Vooralsnog kunnen onze verwachtingen van kunstmatige intelligentie voor informatiebeheer dan ook niet te hoog zijn. Maar bij de huidige benadering gaan we steeds uit van het toepassen van kunstmatige intelligentie op informatie. Is dat de juiste werkwijze? Gegevens zijn feiten of symbolen en worden pas informatie als ze betekenis, praktisch nut of relevante nieuwswaarde hebben voor de ontvanger. Computers begrijpen informatie niet zoals een mens; zij verwerken data (gegevens). Vragen die we stellen aan data met behulp van de computer zijn van andere aard dan de vragen die we stellen aan informatie. In het eerste geval ‘laten we de data spreken’ en zoeken we naar correlaties in plaats van antwoorden op vooraf gestelde vragen. We laten met andere woorden de computer doen waar een mens slecht in is in plaats van waar een mens goed in is.

Ook hierbij worden algoritmes gebruikt om analyses te doen, maar niet van informatie maar van grote hoeveelheden data. Deze big data benadering voor informatiebeheer staat nog in de kinderschoenen. Wat is de nabije toekomst voor informatiebeheer? We moeten om te beginnen oplossingen ontwikkelen om informatie bij de bron te bewaren, te vinden en beschikbaar te houden volgens de daarvoor geldende normen. Deze wijze van beheren van informatie door zorgdragers en archiefinstellingen vraagt om innovatie van de informatiefunctie. Op basis van innovatie kan experiment volgen en samenwerking in de uitvoering. Deze aanpak moet leiden tot werkbare oplossingen voor informatievormers om het informatiebeheer in te richten.

Conclusie

Op basis van het identificeren van metadata, relaties, klassen en selecties kunnen we met behulp van de computer nog niet dezelfde antwoorden vinden in informatie. Een alternatieve benadering is om data te bevragen maar ook daarin moeten nog stappen worden gezet. Dat heeft ook te maken met de kwaliteit van die data. Pas recent komt er een stroom aan digital-born informatie naar ons toe en de hoeveelheid gedigitaliseerd, machine leesbaar informatie neemt ook pas recent toe. Dat biedt mogelijkheden voor de toekomst!

Roland Bisscheroux is directeur/archivaris Waterlands Archief en lid van de Adviescommissie Archieven van de VNG

¹ Mette van Essen, ‘Op zoek naar de mogelijkheden van Machine Learning. Experimenteren met een zelflerende informatiehuishouding’, Archievenblad (2018) nummer 7, 6-8, 7.

² Eindrapport verrijkingsfase TRIADO (2019) 2. Zie ook: Edwin Klijn, ‘Van documenten naar data. Informatie en het semantisch web’, Archievenblad (2019) nummer 5, 14-16.

³ Rob Feenstra, “Meredith Broussard: ‘Technologie en vooruitgang worden vaak met elkaar verward’, Informatie Professional (2019) 01, 10-11, 11.

⁴ Pina Merkert, “Statistiek en denken. Hoe kunstmatige intelligentie afwijkt van menselijke”, C’t magazine (2019) nummer 3, 82.

⁵ Hannah Fry, Algoritmes aan de macht (2018).

⁶ Andrea Trinkwalder, “Kunstmatig vergissen. Waar kunstmatige intelligentie nog tekortschiet”, C’t magazine (2019) nummer 3.

Over Roland Bisscheroux

Lees meer van Roland Bisscheroux »

Plaats een reactie Reactie annuleren

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren