Het fenomeen Informatiehuishouding van de overheid is niet van vandaag of gisteren. Duurzame toegankelijkheid (DUTO) is al jaren het sleutelwoord voor het waarborgen van publieke archieven in een digitale overheid. Dat gaat over digital born archief. Minder bekend is dat ook een stille revolutie gaande is in digitaal gemaakte, digitized, historische archieven. Waar vroeger alleen ervaren paleografen toegang hadden tot handgeschreven documenten van voor de negentiende eeuw, komen die nu binnen het bereik van alle geïnteresseerden.
Met handschriftherkenning door software zijn de afgelopen jaren verbluffende resultaten geboekt. Bijzonder, want niet alleen handschriften veranderen in de loop der tijd, ook de complexe en veel gebruikte afkortingen, verwijzingen en pagina-indelingen moeten herkend worden.
De afgelopen jaren is onder andere bij het Nationaal Archief en in Europees verband ingezet op zelflerende programmatuur die getraind wordt met duizenden handmatige transcripties van ingescande documenten uit verschillende periodes. De automatisch gegenereerde digitale transcripties worden opnieuw gevalideerd. Na verschillende cycli bereiken die al meer dan 95 procent correcte weergave in machineleesbare tekst. De betekenis daarvan kan moeilijk overschat worden. Zodra een handgeschreven tekst in drukletters is omgezet, kunnen niet alleen historici, maar ook wetenschappers van andere disciplines onderzoek doen. Dat gaat verder dan alleen lezen. Een machineleesbare tekst kan ook anders geanalyseerd worden. Allerlei technieken uit de wereld van big data en semantische analyse worden toepasbaar. Dat begint bij relatief simpele zaken als het vinden van datum, namen van personen en locaties. Daarna met herkenning van type documenten en trefwoordanalyse. Data kunnen gemakkelijk aan elkaar gerelateerd worden om nieuwe verbanden te tonen. Innovatieve manieren van presenteren zullen inzicht geven in relaties die voorheen niet te onderzoeken waren.
Door een andere aanbestedingswijze, de Small Business Innovation Research, of SBIR ondersteund door de Rijksdienst voor Ondernemend Nederland, hebben bedrijven, veelal IT-start-ups, de kans gekregen met pilots mee te dingen naar opdrachten voor doorontwikkeling van het presenteren en doorzoekbaar maken van de transcripties in samenhang met de scans. Er is door de Rijksoverheid sinds 2014 geïnvesteerd in massale digitalisering van historisch archief. Er zijn al 30 miljoen scans in hoge resolutie beschikbaar via de website van het Nationaal Archief. Uiteindelijk zal 10 procent van de circa 142 kilometer analoge rijkscollectie gedigitaliseerd zijn. Dat zijn grofweg 12,1 miljard scans, waarvan de toegankelijkheid en analysemogelijkheden met sprongen toenemen. Daarbij moet men zich voorstellen dat slechts een fractie van alle handgeschreven documenten in archieven ooit door iemand is bekeken. Documentatie van diplomatie, conflict, economie, handel, kolonisatie, eigendomsverhoudingen et cetera. Door de toenemende toegankelijkheid van handgeschreven archief kunnen totaal andere vragen worden gesteld over ons verleden, door totaal andere onderzoekers en betrokkenen. Ik noem dat een stille revolutie. De meerstemmige beleving en interpretatie van de geschiedenis van Nederland in de wereld is daarmee gediend. En daarmee ook onze huidige samenleving.
Marens Engelhard is Algemeen rijksarchivaris
Deze column staat ook in iBestuur magazine 36
Ik ben een lagere schoolvriend van Marens en wilde hem (wsl ten overvloede) wijzen op een artikel in NRC over behandeling van psychiatrische problematiek met psychedelica. Wilt u dit namens mij overbrengen?
Bij voorbaat dank.
Ferdinand Schreuder