Overheid in transitie
Onderzoek

AI als sleutel tot moderne informatiehuishouding

Stroom documenten
Binnen de Belastingdienst is onderzocht hoe AI kan bijdragen aan efficiëntere documentclassificatie. | Beeld: Shutterstock

De groeiende informatiestroom en complexe wetgeving stellen overheidsinstanties voor grote uitdagingen op het gebied van informatiebeheer. Ondanks pogingen in het verleden, komen er nieuwe taalmodellen op de markt die mogelijk de informatiehuishouding efficiënter en effectiever kunnen maken. Een onderzoeksproject van studenten binnen de Belastingdienst laat veelbelovende resultaten zien.

Dagelijks worden enorme hoeveelheden documenten verwerkt. Dit varieert van beleidsstukken en besluiten tot juridische rapporten. Met wet- en regelgeving zoals de Wet open overheid (Woo), de Algemene verordening gegevensbescherming (AVG), de Archiefwet en de beveiligingsrichtlijnen NIS2 en BIO is handmatige verwerking en classificatie van deze documenten complex en tijdrovend. Het proces is ook foutgevoelig, wat kan leiden tot inconsistentie en vertraging in besluitvorming.

Kan dit niet handiger?

Binnen de Belastingdienst onderzochten studenten hoe AI kan bijdragen aan efficiëntere documentclassificatie. Dit project had als doel te onderzoeken of AI-modellen kunnen helpen bij het automatisch classificeren van documenten en het correct toekennen van metadata op basis van juridische vereisten. Voor het experiment is gefocust op de Wet open overheid en de specifieke informatie categorieën van documenten.

Multidisciplinaire aanpak

Het team van acht studenten afkomstig van drie verschillende hogescholen (Hogeschool Utrecht, Hogeschool Windesheim & Hanzehogeschool) werkte sammen met experts binnen de Belastingdienst om te begrijpen hoe documenten momenteel worden verwerkt en welke juridische en organisatorische eisen relevant zijn voor automatische classificatie.

Uit het onderzoek blijkt dat automatische documentclassificatie met AI-modellen haalbaar is en kan leiden tot een hoge mate van accuraatheid.

Nederlandse taalmodellen

Voor dit project zijn meerdere Nederlandse taalmodellen, zoals RobBERT en BERTje, getraind op een dataset van 2500 Woo-documenten. Het model analyseert de documenten en deelt ze automatisch  in document categorieën zoals beleidsstukken, besluiten en verslagen.

Uit het onderzoek blijkt dat automatische documentclassificatie met AI-modellen haalbaar is en kan leiden tot een hoge mate van accuraatheid (boven de 95 procent in veel testscenario’s). Daarnaast kan de methode eenvoudig opgeschaald worden naar grotere datasets en andere soorten documenten.

Deze automatische classificaties kunnen vervolgens gebruikt worden om als metadata aan documenten toe te voegen. Dit helpt niet alleen bij het correct archiveren en efficiënt terugvinden van informatie, maar ook bij het identificeren van dubbele of verouderde documenten. Dit geautomatiseerde proces kan bijdragen aan het beheersbaar en toegankelijk maken van de grote informatiestromen. Dit zal op zijn beurt weer helpen om de overheid transparanter te maken.

Ethische en juridische overwegingen

AI-systemen die binnen de overheid worden toegepast, moeten volgens de aankomende AI-act voldoen aan strenge eisen op het gebied van transparantie en uitlegbaarheid. Daarom is er ook onderzoek gedaan naar juridische implicaties die voortvloeien uit met name de AI-act en wet- en regelgeving zoals de AVG.

Een cruciaal onderdeel hiervan was het onderzoek naar het ontwikkelen van mechanismen waarmee de beslissingen van de AI-systemen uitlegbaar, controleerbaar en toetsbaar zijn door mensen. Dit betekent dat medewerkers van de Belastingdienst altijd kunnen achterhalen waarom een document aan een bepaalde categorie is toegewezen en waar nodig handmatig kunnen ingrijpen. Het is essentieel om een mens betrokken te houden in de keten om fouten te corrigeren, uitzonderingen te beoordelen en ervoor te zorgen dat de AI-oplossingen blijven voldoen aan wettelijke normen.

Ook hieruit bleek dat het mogelijk is om de keuzes van de AI-modellen inzichtelijk en begrijpelijk te maken voor mensen. De woorden die bijdragen aan de classificatie van het document worden gehighlight, hierdoor wordt het mogelijk om te zien waarom documenten wel of niet correct zijn geclassificeerd.

Hoe verder?

Deze eerste tests laten de potentie zien van het verantwoord inzetten van AI binnen de informatiehuishouding. Hoewel de resultaten veelbelovend zijn, is aanvullend onderzoek nodig om de modellen verder te optimaliseren voor grotere, meer diverse datasets. Ook zou het systeem moeten worden uitgebreid door te kijken naar andere wetgeving en metadata zoals bijvoorbeeld de bewaartermijn van documenten vanuit de Archiefwet of de aanwezigheid van persoonsgegevens volgens de AVG.

Kortom, ondanks verwoede mislukte pogingen in het verleden moeten we blijven experimenteren met nieuwe technologieën die kunnen helpen om de informatie op orde te krijgen. Bij de Belastingdienst staan de aanbevelingen uit het onderzoeksrapport op de planning om gevolg te geven aan verder onderzoek door studenten.

De studenten die meewerkten aan het project hebben verschillende studieachtergronden zoals Software Development, Rechten & Business IT en Management, die elk goed tot hun recht kwamen in het onderzoek. De technische expertise van Nena Meijer, Jurre Bosman, Mart Kohlmann, Bas Damsma & Zakaria Karboub werd ingezet voor de ontwikkeling van AI-modellen. De juridische achtergrond van Justin Lohuis & Wessel Barendrecht waarborgde naleving van wet- en regelgeving. En de kennis in Business IT & Management van Ivar Muntinga hielp bij het structureren van processen en het verbinden van technische oplossingen met de organisatorische doelen.

  • Hans Donkhorst (op pers. titel) | 24 februari 2025, 11:29

    “Het model analyseert de documenten en deelt ze automatisch in document categorieën zoals beleidsstukken, besluiten en verslagen.” De overheid behoort zodanig te zijn ingericht dat een dergelijke categorisering onderdeel is van de (elke) creatie van informatie. Daarvoor is een actualisering van de informatieverwerkende processen noodzakelijk. Dat geldt met name voor bestuurlijk handelen en beleidsvorming. Die actualisering moet samengaan met een analyse van het wettelijk landschap, een inventarisatie van eisen en verplichtingen en de koppeling aan controls / maatregelen. Een ordening die in de archiefwet als verplichting wordt gedefinieerd.
    Pas dan kan worden voorkomen dat het uberhaupt noodzakelijk is om achteraf te proberen alsnog een ordening aan te brengen.
    Hygiëne moet voorrang krijgen op de poetsploeg !

Plaats een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.
Registreren