zoeken binnen de website

Het belang van datakwaliteit

door: Sunil Choenni | 16 april 2020

Overheden gaan steeds meer datagedreven werken. Dat biedt tal van voordelen, maar het roept ook vraagtekens op. Want deze manier van werken heeft alleen zin als je ook iets kunt zeggen over de kwaliteit van die data. Als de kwaliteit van de data onder de maat is, dan is de kans groot dat ook de kwaliteit van de analyses onder de maat is. Sunil Choenni geeft een eerste aanzet tot een concrete operationalisatie van het begrip datakwaliteit.

data

Beeld: Pete Linforth / Pixabay

De verwachtingen rondom de toepassingsmogelijkheden van big data zijn hooggespannen. Steeds meer organisaties willen de mogelijkheden van big data benutten en kiezen voor data- en informatiegedreven werken. Kenmerkend voor deze manier van werken is dat grote hoeveelheden data uit verschillende bronnen worden verzameld en geanalyseerd. De uitkomsten van deze analyses vormen de bouwstenen voor data- en informatiegestuurde beslissingen.

Langzamerhand wordt steeds duidelijker dat deze manier van werken niet alleen mogelijkheden biedt, maar ook een aantal uitdagingen met zich meebrengt, bijvoorbeeld op het gebied van privacy en ethiek. Een andere belangrijke uitdaging voor het succes van data- en informatiegedreven werken is het bepalen en op orde brengen van de datakwaliteit. Immers: als we niet weten wat de kwaliteit van de gebruikte data is, dan blijven we in het ongewisse over de kwaliteit van de daarop gebaseerde analyses. En: als de kwaliteit van de data onder de maat is, dan is de kans groot dat de kwaliteit van de analyses ook onder de maat is.

Er is helaas geen eenduidige, breed geaccepteerde definitie die ons precies vertelt wat we in de context van data onder het begrip kwaliteit moeten verstaan. In de (wetenschappelijk) literatuur zijn er verschillende (abstracte) definities van datakwaliteit te vinden. In dit artikel geven we een eerste aanzet tot een concrete operationalisatie van het begrip datakwaliteit, op basis van de literatuur. Deze operationalisatie kan helpen bij het in kaart brengen van de kwaliteit van (big) data. Alvorens we dit doen, beschrijven we eerst het big dataproces en laten we zien wat de impact van datakwaliteit is op de uitkomsten van een big data-analyse.

Big data

Net als bij anderen systemen kunnen we bij een big data-analyse een invoer (input), de verwerking van de invoer (throughput) en een uitvoer (output) onderscheiden. De invoer bestaat in het geval van big datatoepassingen uit grote hoeveelheden gegevens. Voor de verwerking van de gegevens, de throughput, kunnen talrijke technieken uit de statistiek, kunstmatige intelligentie en/of datamining gebruikt worden. De output van dit proces bestaat uit modellen.

Een model kan gezien worden als een (versimpelde) weergave van een werkelijkheid. Het beschrijven van een groep van objecten aan de hand van een beperkt aantal kenmerken, met andere woorden: een profiel, is een voorbeeld van een model. Uit een dataset waarin gegevens van wijken en criminaliteitscijfers gecombineerd zijn, kan bijvoorbeeld het volgende profiel afgeleid worden: ‘wijken bestaande uit kleine gezinshuishoudens en waarin de meeste inwoners fulltime werken, hebben een grotere kans op (relatief) meer criminaliteit’. Hoewel op het eerste gezicht duidelijk lijkt wat het profiel uitdrukt, is het adequaat duiden van een dergelijk model in de praktijk – en dientengevolge het toepassen van het model – verre van triviaal. Het gevonden profiel representeert immers een statistische waarheid: het profiel doet alleen een uitspraak over een kans op meer criminaliteit en daarmee is niet gezegd dat er daadwerkelijk meer criminaliteit zal plaatsvinden in de wijken die aan het profiel voldoen.

Als gevolg van het gevonden profiel kunnen bijvoorbeeld de huizenprijzen in wijken die hieraan voldoen, omlaag schieten. Het is nog maar de vraag of dit terecht is. De kwaliteit van de ingevoerde dataset, waarop het profiel is gebaseerd, is bij de beantwoording van deze vraag van cruciaal belang. In dit voorbeeld is het belangrijk je te realiseren dat de criminaliteitscijfers enkel de geregistreerde criminaliteit betreffen en daarom niet volledig zijn. Criminaliteit die niet bij de politie bekend is, komt niet in die cijfers terug. Het kan zijn dat in de genoemde wijken in werkelijkheid minder criminaliteit voorkomt in vergelijking met andere wijken, maar dat de criminaliteit hier beter wordt opgespoord en/of geregistreerd.

Voor een adequate duiding van modellen verkregen door het toepassen van big data, is kennis over de kwaliteit van de data onontbeerlijk. De vraag die dan oprijst is: wat moeten we onder de datakwaliteit verstaan?

Datakwaliteit

In de literatuur zijn verschillende definities van datakwaliteit te vinden, variërend van het definiëren van enkele datakwaliteitsdimensies (zoals nauwkeurigheid, volledigheid, tijdigheid, bruikbaarheid, relevantie en betrouwbaarheid) tot veelomvattender definities. Sommige dimensies, bijvoorbeeld nauwkeurigheid, kunnen als objectief worden beschouwd, terwijl andere dimensies subjectief zijn, bijvoorbeeld relevantie. Ditzelfde geldt ook voor de veelomvattende definities van datakwaliteit. De mate waarin een dataverzameling (delen van) de echte wereld adequaat representeert, is een definitie die als objectief beschouwd kan worden. Dit in tegenstelling tot de mate waarin een dataverzameling geschikt is voor het gebruik in een applicatie, die subjectief van aard is. Bij laatstgenoemde definitie is de geschiktheid afhankelijk van degene die de kwaliteit moet beoordelen, alsmede van de applicatie. Over het algemeen bevatten de uitgebreidere definities de datakwaliteitsdimensies van de meer specifieke definities.

Om een gegeven dataverzameling te kunnen beoordelen en de kwaliteit ervan te kunnen meten, dient eerst de definitie van datakwaliteit en de bijbehorende dimensies geoperationaliseerd te worden. Bij het operationaliseren van een definitie kan een aantal relevante kwaliteitsdimensies worden geselecteerd. Vervolgens dient vastgelegd te worden op welk niveau, bijvoorbeeld syntactisch en/of semantisch, de definities meetbaar worden gemaakt. Op het syntactisch niveau meten we in welke mate de data voldoen aan de vooraf gestelde eisen. Een voorbeeld van een eis kan zijn dat bij het veld ‘geslacht’ in een dataset alleen de waarden man of vrouw zijn ingevuld. Op het semantisch niveau meten we in welke mate de data overeenkomen met de werkelijkheid. Als bij het geslacht van mevrouw Chopra ‘man’ is ingevuld, dan is dit semantisch onjuist, want dit zou ‘vrouw’ moeten zijn.

Ter illustratie laten we hieronder zien hoe de datakwaliteitsdimensie ‘volledigheid’ geoperationaliseerd kan worden en welke impact deze dimensie kan hebben op de uitkomsten van een analyse.

Dimensie ‘volledigheid’

De dimensie volledigheid kan geoperationaliseerd worden aan de hand van twee indicatoren: 1) het aantal NULL-waarden en 2) het aantal ontbrekende relaties in de data. NULL-waarden komen vaak voor in databestanden en kunnen diverse betekenissen hebben, zoals: de waarde is niet bekend, niet gedefinieerd, niet van toepassing, kan niet bepaald worden, moet nog ingevuld worden, enzovoorts. Het meten van het aantal NULL-waarden is een typische indicator op het syntactische niveau, terwijl het bepalen van de ontbrekende relaties in een databestand betrekking heeft op het semantische niveau.

Aan de hand van een voorbeeld laten we zien waarom het ontbreken van inzicht in het aantal NULL-waarden de duiding van analyses compliceert. Dit komt doordat elk databasesysteem anders met NULL-waarden omgaat. Het databestand in onderstaande tabel bestaat uit zes attributen (kolommen) en vijf tuples (rijen). Het attribuut ‘tid’ is de zogenoemde tuple identifier, die een tuple uniek identificeert.

tid Leeftijd Geslacht Categorie auto Autoprijs Schade veroorzaakt
100 20 man lease 70.000 ja
200 35 NULL geen lease 80.000 ja
300 24 vrouw lease 75.000 ja
400 28 man geen lease 40.000 ja
555 28 man lease 50.000 nee

Stel dat we willen weten hoeveel personen er in de database staan. Het databasesysteem waarop het bestand staat heeft nu twee opties om deze vraag te beantwoorden, elk leidend tot verschillende antwoorden. De eerste optie is om het aantal tids (in dit geval gelijk aan het aantal rijen) te tellen, wat resulteert in het antwoord vijf. De tweede optie is om de (door een database ontwerper) gedefinieerde relatie ‘het aantal personen = het aantal vrouwen + het aantal mannen’ toe te passen. Het antwoord is dan vier. Als de eerste optie gekozen wordt, kan dat tot verwarring leiden als gevraagd wordt om ook het aantal personen uit te splitsen naar mannen en vrouwen omdat je dan één persoon mist. Als je de tweede optie kiest, is het antwoord niet conform de werkelijkheid. Om het antwoord van het systeem adequaat te kunnen duiden, is inzicht in het aantal NULL-waarden vereist. Het verminderen van het aantal NULL-waarden verhoogt de kwaliteit van het bestand en draagt daarmee bij aan de duiding van de analyses.

Inzicht in de relaties die ontbreken, helpt ook bij het duiden van de uitkomsten van een analyse. Stel dat we nu willen weten welke automerk, geleased door mannen tussen de twintig en dertig jaar, betrokken is bij schade. Deze vraag kan niet beantwoord worden (ook al hebben we een aparte database met automerken), omdat de relatie tussen schade en automerken niet is vastgelegd. Het ontbreken van deze relatie komt de volledigheid (op semantisch niveau) niet ten goede.

In principe kan een kwaliteitsdimensie geoperationaliseerd worden in talrijke verschillende indicatoren. Niet iedere indicator is relevant en de waarde van de ene indicator is eenvoudiger te bepalen dan de andere. In bovenstaand voorbeeld is het bepalen van NULL-waarden een stuk eenvoudiger dan het bepalen van ontbrekende relaties. Hoe kies je nu de juiste verzameling van indicatoren? Bij het beantwoorden van deze vraag speelt domeinkennis een rol.

Domeinkennis

Belangrijk bij het kiezen van een indicator voor een kwaliteitsdimensie is niet alleen dat de indicator relevant is en de waarde daarvan bepaald kan worden, maar ook dat er kennis is om deze waarde te verbeteren. Hierbij kan kennis over het domein waar de dataverzamelingen betrekking op hebben, helpen. In bestanden uit het justitie- en veiligheidsdomein komen bijvoorbeeld de datum waarop een proces-verbaal is opgemaakt en de datum waarop een delict is gepleegd, vaak voor. Op basis van ervaring weten we dat voor de meeste delicten het volgende geldt: vaak wordt op dezelfde dag dat een delict is gepleegd, aangifte gedaan. Deze kennis kunnen we gebruiken om NULL-waarden te reduceren. We kunnen bijvoorbeeld ontbrekende pleegdatums vervangen door de datum waarop het proces-verbaal is opgemaakt, want deze zijn doorgaans hetzelfde. Het systematisch in kaart brengen van kennis binnen een bepaald domein, en het benutten van die kennis, zal bijdragen aan een betere datakwaliteit. Vaak is er veel impliciete domeinspecifieke kennis over bestanden aanwezig bij experts die in die domeinen werken. Het expliciteren van deze kennis heeft tevens als voordeel dat het kan helpen bij het selecteren van relevante kwaliteitsdimensies en bijbehorende indicatoren. Ook draagt het bij aan het kennismanagement van een organisatie en domein.

Samenvattend

In deze bijdrage heb ik betoogd dat een adequate duiding van de resultaten van (big) data-analyses van belang is voor het succes van data- en informatie-gedreven werken. Inzicht in de kwaliteit van de data is hierbij van cruciaal belang. Ik heb laten zien dat het ontbreken van dat inzicht kan leiden tot verwarring en verkeerde conclusies. Ook heb ik laten zien dat het meten en het verbeteren van de datakwaliteit verre van triviaal is, want hiervoor zijn vele keuzes mogelijk en is domeinkennis van grote waarde.

Sunil Choenni is lector Future Information and Communication Technology bij het kenniscentrum Creating 010, Hogeschool Rotterdam en afdelingshoofd bij het Wetenschappelijk Onderzoeks- en Documentatiecentrum, ministerie van Justitie en Veiligheid.

Suni Choenni stond gepland als spreker op Rotterdam IoT 2020 met als thema ‘Truth or Data?’ op 9 april. Het evenement is, vanwege de coronacrisis, niet doorgegaan. De bijdrage van Suni Choenni over datakwaliteit staat nu geprogrammeerd voor Rotterdam Internet of Things 2021.

tags: ,

Reactieformulier

De met een * gemarkeerde velden zijn verplicht. U ziet eerst een voorbeeld en daarna kunt u uw bijdrage definitief plaatsen. Uw e-mailadres wordt niet op de site getoond. Reacties zonder achternaam worden verwijderd. Anoniem reageren alleen in uitzonderlijke gevallen in overleg met de redactie. U kunt bij de vormgeving van uw reactie gebruik maken van textile en er is beperkt gebruik van html mogelijk.