Audio uit raadsvergaderingen levert een schat aan info op
In gemeenteraadsvergaderingen komt veel interessante informatie voor inwoners voorbij, maar hoe bereikt die informatie hen? Generatieve AI biedt mogelijkheden om de audio-opnames van de vergaderingen te verwerken tot hapklare ‘brokjes’, al brengt dit ook weer nieuwe uitdagingen met zich mee. Hebben we bijvoorbeeld wel goed in beeld wat taalmodellen weglaten als je vraagt om een samenvatting van wat er is besproken?
Bij het ICAI OpenGov Lab van de Universiteit van Amsterdam (UvA), dat zich bezighoudt met AI-toepassingen voor een transparantere overheid, werkt universitair docent David Graus aan een project om informatie uit raadsvergaderingen te laten landen bij de mensen die het aangaat. Graus, die het OpenGov Lab leidt, zegt: ‘Puur het feit dat een gemeenteraadsvergadering een sequentieel audioverhaal is van een aantal uur, maakt het heel ontoegankelijk. Het is erg de moeite waard om daar kleine ‘nuggets’ uit te halen en die op een andere manier te brengen naar burgers.’
Puur het feit dat een gemeenteraadsvergadering een sequentieel audioverhaal is van een aantal uur, maakt het heel ontoegankelijk.
David Graus, OpenGov Lab
Het project heeft de werktitel ‘Woopush’, omdat het uiteindelijk moet leiden tot een push-service voor inwoners voor informatie die in het kader van de Wet open overheid (Woo) op gemeentelijke niveau wordt vrijgegeven. Diverse studenten buigen zich over een onderdeel van het project. Zo is er een student die inwoners bevraagt over de manier waarop ze informatie het meest waardevol vinden: als ruwe informatie, als samenvatting, of als een handelingsgerichte samenvatting. Dat laatste is een samenvatting waarin staat wat je aan de informatie hebt, als inwoner of ondernemer.
Accenten en afwijkende uitspraken
Een uitdaging bij het transcriberen van de audiosporen van raadsvergaderingen is dat AI-modellen voor spraakherkenning doorgaans moeite hebben met accenten. De meeste spraakherkenningsmodellen zijn primair getraind op Engelstalige data. Nederlands wordt als extra taal toegevoegd, maar krijgt aanzienlijk minder trainingsdata in het Nederlands dan in het Engels. Daardoor worden regionale accenten en afwijkende uitspraken slecht herkend.
Om dit probleem te ondervangen, gebruiken de onderzoekers onder meer het Nederlandse AI-spraakmodel Murmel. Ontwikkelaar Maarten Sukel was al een tijdje bezig met verzamelen van goede audiobronnen in het Nederlands, toen hij op het idee kwam om een eigen spraakherkenningsmodel te bouwen. Voor het trainen gebruikte hij duizenden uren aan openbare bronnen, van raadsvergaderingen, tot de Tweede Kamer, tot ontsloten audio-archieven.
Uit een eigen onderzoek blijkt dat Murmel regionale accenten, maar ook sprekers die buiten Nederland zijn geboren, beter herkent dan zes veelgebruikte open-source spraakmodellen. Tot Sukels verrassing presteert Murmel het beste op vrouwelijke stemmen, wat ongebruikelijk is voor spraakherkenningsmodellen. ‘Er zat blijkbaar meer balans in de dataset dan gebruikelijk. Dat was onopzettelijk, maar wel interessant’, zegt hij.
Murmel presteert het beste op vrouwelijke stemmen, wat ongebruikelijk is voor spraakherkenningsmodellen.
Transcriberen, opknippen en doorzoekbaar maken
Bij het OpenGov Lab studeerde Pepijn van Wijk af op het bouwen van een zoekmachines voor gemeenteraadsvergaderingen. Daarvoor maakte hij gebruik van het automatisch transcriberen van raadsvergaderingen, het automatisch opknippen in stukjes en die doorzoekbaar maken. Ook onderzocht hij het effect van een traditionele zoekmachine versus een chatbot voor de informatievoorziening inwoners. Ander studenten borduren voort op zijn inzichten. Eén student onderzoekt een methode om slimmer gemeenteraadsvergaderingen te kunnen segmenteren in losse agendapunten. ‘Automatisch opknippen is nuttig omdat de vergaderingen langdurig kunnen zijn’, vertelt Graus. ‘Door ze semantisch op te knippen, weet je waar je moet zoeken als je naar specifieke onderwerpen op zoek bent.’
Wat valt er weg in een AI-samenvatting?
Een andere student houdt zich bezig met het automatisch samenvatten van transcripten van raadsvergaderingen, vanuit het idee dat inwoners ChatGPT inschakelen om te weten wat er is gezegd in de vergadering. ‘In dit onderzoeken meten we systematisch de invloed van een large language model (LLM of taalmodel, red.) op een samenvatting. Als je een vergadering van een paar uur laat samenvatten, wat blijft er dan over en wat valt er weg?’
Uit de eerste bevindingen blijkt dat een LLM veel zogeheten procedural language weglaat; zaken als de opening van de vergadering, het doorgeven van een microfoon, et cetera. Maar de onderzoekers zijn vooral benieuwd naar de meer inhoudelijke onderwerpen. Wat valt er weg in een samenvatting van 200 woorden?
Onder de onderwerpen die LLM’s vaker weglaten zijn onder meer ‘emancipatie’ en ‘discriminatie en racisme’.
Samenvatten wordt als een relatief veilige taak gezien voor taalmodellen, maar uit een eerder onderzoek van een andere student, die ministeriele toespraken analyseerde, bleek dat een taalmodel eerder geneigd is om gevoelige onderwerpen uit de samenvatting weg te laten. Onder de onderwerpen die LLM’s vaker weglaten dan andere zijn onder meer ‘emancipatie’ en ‘discriminatie en racisme’ (dit zijn subonderwerpen van de overheidsthema’s ‘Familie, zorg en gezondheid’ en ‘Migratie en reizen’. Graus: ‘Als dat ook uit dit onderzoek blijkt, dan lijkt me dat wel relevant.’
Plaats een reactie
U moet ingelogd zijn om een reactie te kunnen plaatsen.