Zwartlakken maakt meer kapot dan je lief is
De door de departementen gebruikte software om gegevens in stukken vrijgegeven onder de Woo weg te lakken tast de machineleesbaarheid, de vindbaarheid, de toegankelijkheid en ook de herbruikbaarheid van die stukken vaak sterk aan. Dit komt door de gebruikte techniek van inscannen en optische karakterherkenning. Wij pleiten ervoor om die software niet in te zetten op stukken waarvan de bron beschikbaar is, en in plaats daarvan te anonimiseren by design. Voorbeelden bij enkele ministeries en bij lagere overheden laten zien dat dit prima kan en goed werkt.
.
Zwartlakken, ook wel anonimiseren of tekst-redactie genoemd, is het onleesbaar maken van woorden in openbaargemaakte documenten. Dit gebeurt onder andere in juridische stukken om de veiligheid van getuigen te waarborgen en in documenten vrijgegeven na een Woo-verzoek. In de Woo staan verschillende weigeringsgronden om informatie niet te hoeven delen (persoonlijke data, veiligheid van de staat, etc). De term zwartlakken dekt de lading trouwens allang niet meer; de overheid gebruikt een breed scala aan kleuren en manieren om tekst weg te halen.
Zwartlaksoftware
Het weglakken van informatie en het controleren op weigeringsgronden is een tijdrovende klus en wordt gezien als één van de oorzaken van de lange behandelingstijden van Woo-verzoeken. Vandaar dat de overheid zogenaamde laksoftware gebruikt om dit makkelijker te maken. De tijdsbesparing zit niet zozeer in het lakken zelf, maar in het feit dat de laksoftware met AI getrained is om stukjes tekst die wellicht onder een weigeringsgrond (voornamelijk persoonsgegevens als namen, email adressen en telefoonnummers) vallen op te sporen.
Zwartlaksoftware moet logischerwijs aan twee eigenschappen voldoen: het is veilig –dat wat onleesbaar gemaakt moet worden is ook echt niet meer terug te halen– en het is conservatief –de rest van het document wordt helemaal niet veranderd. De laksoftware die bij de ministeries gebruikt wordt voor Woo-documenten is veilig maar heel vaak niet conservatief. Het lakken vermindert sterk de leesbaarheid, de toegankelijkheid en dus ook herbruikbaarheid van vrijgegeven documenten. Het is zelfs zo dat in een kwart van deze stukken alle woorden zijn weggehaald. Als een computer het document, waarin ziende mensen nog alle tekst zien staan, voorleest aan een slechtziende resulteert dat in totale stilte.
Dit komt omdat de laksoftware in feite een afbeelding van elke pagina maakt en vervolgens in die afbeeldingen de woorden weglakt. Daarna wordt getracht met optische karakterherkenning de niet weggelakte woorden weer voor de computer leesbaar te maken. Dit laatste is een techniek op basis van kunstmatige intelligentie en die daardoor dus nooit foutloos is. Deze manier van werken zorgt er dus voor dat de door de mens ingetypte tekst niet meer hetzelfde is als die door de computer gelezen wordt, en dat alle informatie nodig voor een digitaal toegankelijk document verloren gaat.
Is dit nou erg? Is dit niet gewoon de prijs die we moeten betalen voor een veilig gelakt document? Ja, deze manier van lakken maakt echt veel meer kapot dan ons lief is en dan we ons vaak realiseren. Als de tekst die een mens en die een machine kan lezen niet meer hetzelfde is wordt het veel moeilijker om stukken terug te vinden. Zoeken op een term waarvan je weet dat die in een stuk staat, maar die in het OCR proces verminkt is, levert dan geen hit op: het stuk kan met die term niet meer teruggevonden worden. Ook vermindert de toegankelijkheid voor visueel beperkten enorm: voorlezen van verminkte tekst leidt tot gek uitgesproken en vaak onbegrijpelijke woorden, en doordat alle opmaakinformatie verdwenen is wordt voorlezen en navigeren sterk bemoeilijkt. Ook is het op deze manier aangepaste document veel minder herbruikbaar voor andere doeleinden.
Wetgeving en praktijk
De Woo stelt zelf dat vrijgegeven documenten machineleesbaar moeten zijn en verstrekt moeten worden in lijn met de Europese richtlijnen voor toegankelijkheid en herbruikbaarheid.
Uit onderzoek blijkt dat driekwart van alle onder de Woo vrijgegeven stukken bestaat uit afbeeldingen van tekst, waarbij dus kostbare informatie verloren gegaat. We zien daarbij een verschil in kwaliteit tussen de vrijgegeven stukken en de besluiten. Die van de besluiten is gemiddeld genomen beter. Dit lijkt logisch omdat de besluiten net zelf gemaakt zijn en het bronbestand (meestal een Word document) beschikbaar is, terwijl dit vaak niet het geval is voor de vrijgegeven stukken.
In de tabellen hiernaast staat de kwaliteit van de stukken per ministerie weergegeven op een manier die is afgeleid van de Nutriscore. De groene score A staat voor een digitaal document, alle andere voor ingescande documenten. De score geeft aan hoeveel de machine leesbare tekst lijkt op het origineel. Hoe roder, hoe minder leesbaar. Stukken met de rode score E bevatten geen enkel machine leesbaar karakter.
Het kan anders
Zowel de beslisnota’s als de Woo-besluiten van verschillende lagere overheden laten zien dat het anders kan. Aan de universiteit van Illinois in de VS is software ontwikkeld waarmee men bewezen veilig rechtstreeks (dus zonder scannen) in een PDF tekst kan verwijderen. Deze PDF bestanden zijn dan allicht niet toegankelijk (omdat ze het al niet waren), maar in ieder geval is het lakken conservatief en blijven ze dus goed machine leesbaar.
Op het gebied van stukken die speciaal gemaakt worden om openbaar gemaakt te worden, zoals de beslisnota’s en Woo-besluiten, en waarin een paar stukjes (vrijwel altijd persoonsgegevens) weggelakt moeten worden is een enorme slag te behalen door het anonimiseren direct mee te nemen tijdens het schrijven van het stuk. Ten eerste volgt men daarmee de weglak-richtlijn van de Amerikaanse National Security Agency, die dit als meest veilig adviseert. Ten tweede biedt zo’n anonimiseer by design aanpak enorme voordelen voor de kwaliteit van het document: het blijft digitaal, en dus is de machine leesbare tekst gelijk aan de ingetypte tekst, en als het op de juiste manier vanuit Word als een toegankelijke PDF geexporteerd wordt, is het (mits ook de metadata juist staan ingesteld) 100% WCAG 2.1 compliant, en dus toegankelijk. Zo’n origineel digitaal bestand met nette metadata is ook een zegen uit het oogpunt van herbruikbaarheid.
Anonimiseren by design
Anonimiseren by design kan op verschillende manieren. Men kan er, zoals de Provincie Flevoland doet, voor kiezen om alleen een anonieme besluitbrief op te stellen. Die begint dus niet met Geachte heer …, maar met Geachte verzoeker, en op vergelijkbare wijze zijn ook de herleidbare persoonsgegevens van de opsteller van het besluit geanonimiseerd. Men kan ook gebruik maken van software, zoals onlangs ontwikkeld door de Provincie Zuid-Holland samen met de Universiteit van Amsterdam, waarin men via een sjabloon een besluit voorziet van de specifieke gegevens en meteen aangeeft wat daarin, en op welke weigeringsgrond, weggelakt moet worden. De software maakt dan een persoonlijke versie om aan de verzoeker te sturen, en een anonieme versie die openbaar gemaakt kan worden. In deze laatste aanpak worden persoonsgegevens vervangen door een standaard tekst, bijvoorbeeld Weigeringsgrond 5.1.2.e, en ook voorzien van een zogenaamde Alt tag. Dit zorgt ervoor dat het document op een veel natuurlijkere wijze wordt voorgelezen voor visueel beperkten: in plaats van een stilte bij een stukje weggelakte tekst wordt dan die standaard of de Alt tekst uitgesproken, en weet de luisteraar wat er aan de hand is.
Conclusie
Men lijkt zich niet altijd bewust dat het gebruik van laksoftware gebaseerd op de scan en OCR techniek verstrekkende negatieve gevolgen heeft voor de vindbaarheid, machineleesbaarheid en toegankelijkheid van door de overheid vrijgegeven documenten. Zeker als men de beschikking heeft over het brondocument (meestal in Word), verdient het de voorkeur om direct in de bron te anonimiseren. Dit is veiliger en behoudt zowel de leesbaarheid als de toegankelijkheid. Verschillende lagere overheden laten zien dat deze werkwijze mogelijk is en het beoogde effect heeft.
Dit onderzoek is mede mogelijk gemaakt door het Actieplan Open Overheid en het Adviescollege Openbaarmaking en Informatiehuishouding (ACOI).
De cijfers in dit stuk zijn ontleend aan dit onderzoek.