zoeken binnen de website

Overheidsinformatie? Ondoorzoekbaar!

door: Marc van Opijnen | 27 januari 2021

De overheidsinformatiehuishouding wordt geregeerd door twintigste-eeuwse denkbeelden. Dat paradigma zal moeten veranderen om een aantal fundamentele problemen te kunnen oplossen. Met kabinetsreactie op het rapport ‘Ongekend onrecht’ kunnen we de eenentwintigste eeuw niet binnenstappen. De wet zegt: u zult archiveren en u zult openbaar maken. Maar dan? Hoe vind je als burger wat relevant is?

Een van meest intrigerende onderwerpen van het rapport ‘Ongekend onrecht’ van de Commissie-Van Dam over de Kinderopvangtoeslagaffaire is de rol die de overheidsinformatiehuishouding heeft gespeeld in het drama. De informatievoorzieningsproblemen hadden niet alleen betrekking op de Rutte-doctrine, maar ook op de feitelijke onvindbaarheid van overheidsdocumenten. Nu zagen we dat bij de Belastingdienst uitvergroot, een vorige keer ging het over het bonnetje van Teeven, maar het is een probleem dat iedere ambtenaar en iedere burger kent uit de dagelijkse praktijk.
In de kabinetsreactie op Ongekend onrecht lezen we dat het allemaal anders en beter moet. Als blijk van goede wil heeft het ministerie van Financiën een website opgezet met documenten en besluiten die betrekking hebben op de parlementaire ondervragingscommissie Kinderopvangtoeslag.
Ik heb alle begrip voor de druk waaronder deze website tot stand moest komen, maar dit ‘Informatiepunt Kinderopvangtoeslag’ is exemplarisch voor veel van wat er mis is met de informatiehuishouding van de overheid.*

Wilt u voor de aardigheid eens proberen om de documenten te vinden waarin de ‘Donner-doctrine’ wordt besproken? Valt niet mee, he?

Actieplan informatiehuishouding

Het kabinet kondigt een ‘Actieplan informatiehuishouding’ aan, dat nauw gerelateerd is aan reeds bestaande initiatieven en beleidsvoornemens. Twee speerpunten worden nadrukkelijk benoemd. Allereerst het archiveren: “De nieuwe Archiefwet geldt als uitgangspunt voor het archiefbeheer.” In die Archiefwet worden regels gesteld over wat er wel en niet wordt bewaard, waar, door wie en hoe. Het tweede speerpunt is het beschikbaar stellen van de informatie aan de burger: “De Woo geldt als uitgangspunt voor actieve openbaarheid.” Deze Woo (Wet openbaarheid overheidsinformatie) is overigens nog steeds niet in werking, maar stél dat de Woo binnenkort in werking treedt en stél dat alle overheden de daaronder vallende documenten op internet weten te krijgen, dan is ook deze stap gezet.
Voor het gemiddelde overheidsorgaan – en volgens het kabinet – is daarmee dan de kous wel zo’n beetje af. De wet zegt: u zult archiveren en u zult openbaar maken, en zo zal het dan straks zijn geschied.

Doorzoekbaarheid

Maar dan? Voor de burgers – of de volgende parlementaire onderzoekscommissie – begint het dan pas. Hoe kunnen zij in al die gearchiveerde en gepubliceerde informatie vinden wat voor hen, voor hun specifieke informatiebehoefte van dat moment, relevant is? De simpele zoekopdracht die ik hierboven formuleerde demonstreert dat dat in de meeste gevallen nog niet zo eenvoudig is; overheidswebsites blinken helaas niet uit in doorzoekbaarheid. Niet alleen omdat het er zo veel zijn en als zodanig vaak niet eens herkenbaar , maar omdat de overheid zich niet kan of wil verplaatsen in de zoekende burger. Of er wordt gedacht dat die zoekende burger wel afdoende geholpen zal zijn met het ‘Google-achtige zoekboxje’ dat ieder off-the-shelf contentmanagementsysteem standaard meelevert.

Het is een verdienste van Google dat slechts weinigen doorhebben dat zijn simpele zoekschermpje een van de meest geavanceerde stukken technologie is van deze tijd. Google is een de grootste bedrijven ter wereld, maar het is een one trick pony. Google bouwt geen archiefsystemen. Google bouwt geen publicatiesystemen. Google richt zich alleen maar op ‘zoeken’. En juist omdat dat hun enige focus is, zijn ze er waanzinnig goed in.
Information retrieval is namelijk een compleet eigen tak van sport binnen de informatica. Daaronder rekenen we niet alleen de commerciële internetzoekmachines, maar bijvoorbeeld ook zoeksoftware die op andere sites wordt gebruikt of e-discovery, dat wordt ingezet om miljoenen documenten uit een veelheid van bronnen te doorzoeken in juridische of due diligence onderzoeken.

Gebruikersperspectief

Probeert u zich de huidige wereld –met al z’n gedigitaliseerde archieven en databases – eens voor te stellen zonder de Googliaanse zoekvoorzieningen om al die informatie te ontsluiten, te ordenen en te analyseren. We zouden zijn als een walvis in de woestijn.
En toch is het juist die information retrieval die in het informatiehuishoudingsideaalplaatje van het kabinet ontbreekt. Vindbaarheid en toegankelijkheid worden in de kantlijn weliswaar genoemd als eisen aan archiveringssystemen en publicatiesystemen, maar dat wijst op een cruciale denkfout, om twee redenen.
De eerste reden noemde ik al: information retrieval is een vak apart. Het is gebaseerd op geheel eigen principes, denkbeelden en technologieën (AI speelt er bijvoorbeeld een belangrijke rol).
De tweede reden hangt daarmee samen: het gebruikersperspectief van zoeksystemen is volstrekt anders. Archiefsysteem zijn er voor overheden die documenten op willen of moeten slaan; publicatiesystemen zijn er voor overheden die documenten kenbaar willen of moeten maken; maar zoeksystemen zijn er voor de burgers, de journalisten, de wetenschappers en de ambtenaren die informatie willen vínden. Vinden, zonder dat je weet welke archiefcodes je moet gebruiken, zonder dat je weet wat metadata zijn, zonder dat je weet wat ‘documentdatum’ betekent en zonder dat je weet welk ministerie verantwoordelijk is voor een bepaald onderwerp. Met andere woorden: zonder dat je weet hoe de achterliggende informatiearchitectuur eruitziet. Want dat is de basiskennis die je nodig hebt om in de meeste archieven of publicatiesystemen te kunnen zoeken. En dat is basiskennis die zoekende burgers niet hebben. Google heeft dat begrepen, maar binnen de overheids-IT is het een blinde vlek.

Information retrieval is serious business

‘Zoeken’ vergt van ontwikkelaars een compleet andere denkwijze: een filosofie die principieel niet verenigbaar is met het paradigma van de bouwers van archief- en publicatiesystemen.
Om het Actieplan Informatiehuishouding te laten slagen, om de burger straks niet te laten verzuipen in een tsunami van ongeordende informatie, om ook ministeries zelf de middelen te geven om te kunnen voldoen aan informatieverzoeken van de Kamer die niet zijn te beantwoorden met de standaardzoekmogelijkheden van hun documentmanagementsystemen, daarom moet information retrieval als zelfstandige component in de overheidsinformatiehuishouding een plek krijgen. En dus niet als onderdeel van die andere twee componenten, maar er naast, als een volwaardige derde loot aan de stam.
Omdat de belangen van de eindgebruikers van die drie systeemsoorten zo verschillend zijn en vaak zullen conflicteren, is het cruciaal dat ze alle drie een eigen eindverantwoordelijke hebben. Bovendien wordt daarmee duidelijk dat information retrieval niet iets is wat je er even bij doet, maar dat het – zie omvang en onmisbaarheid van Google – serious business is.

Ten slotte, en dat is misschien wel één van de moeilijkste opgaven: hoe kunnen we toetsbaar formuleren wanneer zulke informatieontsluitingssystemen goed genoeg zijn? Zonder de Archiefwet, de Woo en de Bekendmakingswet tekort te willen doen, het is veel eenvoudiger om toetsbare regels te formuleren voor archiveren en publiceren dan voor een goedwerkend zoeksysteem. Want we kunnen van te voren redelijk nauwkeurig formuleren wat we willen bewaren en wat we kenbaar willen maken, maar de menselijke nieuwsgierigheid en de behoefte aan democratische transparantie kennen geen vooraf definieerbare grenzen.

Het onderzoek voor dit artikelis afgesloten op 21 januari 2021

Marc van Opijnen is adviseur rechtsinformatica bij het Kennis- en exploitatiecentrum Officiële Overheidspublicaties (BZK/UBR/KOOP)

reacties: 1

tags: ,

  • Jos van den Oever (NLnet) #

    29 januari 2021, 15:47

    De zoekfunctie op informatiepuntkinderopvangtoeslag.rijksoverheid.nl is niet behulpzaam. Je zou de website informatiepuntkinderopvangtoeslag.rijksoverheid.nl kunnen zien als een honeypot. Je wilt vliegen vangen met honing. De site bevat meer trackers dan de het vaccinatieregistratiessysteem van de GGD¹. Mensen die zoeken op deze site geven door wat hun ip-adres is en in welke aspecten van de toeslagenaffaire ze geïnteresseerd zijn. Dat is nuttige informatie voor de overheid.

    Een typische honeypot geeft geen toegang tot de echte informatie.

    Zo gewiekst zal de site niet in elkaar zitten. Voor de zekerheid kun je de site bezoeken met de Tor browser.

    De zoekfunctie is niet bruikbaar. Wat dan? Met een beetje scripting kun je de hele site downloaden. Dan kun je in de privacy van je eigen computer de bestanden doorzoeken. Erg efficient is dat niet. Deze site met slechts een klein deel van de overheidsinformatie is 9 gigabyte groot (1913 pdf bestanden). Deze aanpak levert me 1 hit op.

    Via externe zoekmachines zijn de resultaten wisselend.

    zoek via startpage

    zoek via duckduckgo

    Deze zoekdiensten zien een markt in het doorzoekbaar maken van publieke overheidsdocumenten.

    Niet alleen de zoekfunctionaliteit kan beter. De documenten zelf kunnen ook beter. De PDF bestanden zijn geredigeerde versies interne documenten. Het PDF formaat is PDF 1.7 en niet het door de overheid zelf voorgeschreven PDF/A-1a.

    De documenten zijn ongestructureerd. Filteren op afzender, ontvanger or type document is niet eenvoudig. Information retrieval is een apart vak, maar information creation en publication ook.

    De documenten zijn niet digitaal ondertekend. Dat is een probleem, want deze documenten zijn zo eenvoudig te vervalsen.

    1) Illegale handel in privégegevens miljoenen Nederlanders uit coronasystemen GGD

Reactieformulier

De met een * gemarkeerde velden zijn verplicht. U ziet eerst een voorbeeld en daarna kunt u uw bijdrage definitief plaatsen. Uw e-mailadres wordt niet op de site getoond. Reacties zonder achternaam worden verwijderd. Anoniem reageren alleen in uitzonderlijke gevallen in overleg met de redactie. U kunt bij de vormgeving van uw reactie gebruik maken van textile en er is beperkt gebruik van html mogelijk.