Het nieuwe hyperscale datacenter van Microsoft in het Westelijk Havengebied van Amsterdam gaat evenveel stroom verbruiken als alle huishoudens van Haarlem samen. In de Tweede Kamer wordt gedebatteerd over digitale soevereiniteit, netcongestie en de vraag of we Amerikaanse techgiganten onze schaarse groene stroom moeten gunnen. De Dutch Datacenter Association verdedigt de sector met cijfers over economische bijdrage en de onmisbaarheid van digitale infrastructuur.
We bouwen datacenters voor een data-explosie die niet bestaat
Nederland debatteert over datacenters alsof we een kennisexplosie meemaken. Maar de cijfers vertellen een ander verhaal. Uit onderzoek blijkt dat negentig procent van alle opgeslagen data uit kopieën bestaat. We bouwen dus infrastructuur voor kopieën, ruis en informatie die we produceren om te vergeten. In plaats van meer datacenters bouwen kunnen we ons beter afvragen welke unieke, blijvende informatie we willen opslaan per eenheid energie? Dit vereist een andere manier van denken, maar het is wel de vraag die we zouden moeten stellen. Want elke byte die we niet opslaan, hoeft ook niet gekoeld te worden in Middenmeer.
We nemen allemaal, inclusief ikzelf, te vaak aan dat datagroei onvermijdelijk is. De wezenlijke vraag die we moeten stellen is: waarvoor bouwen we die opslagruimte eigenlijk? Iedereen gaat er maar vanuit dat de hoeveelheid data blijft exploderen en dat die datacenters hard nodig zijn. Maar wat als we dat eens nader bestuderen? Ik ontdekte dat er weinig overbleef van die claim.
De illusie van de kennisexplosie
Zo op het oog aan de buitenkant lijken de cijfers indrukwekkend. Onderzoeksbureau IDC becijferde dat de mensheid in 2020 zo’n 64 zettabyte aan data creëerde. Ter vergelijking: dat is 64 biljoen gigabyte, ofwel ruim achtduizend gigabyte per mens op aarde. Het wereldwijde datavolume groeit met meer dan twintig procent per jaar. De projecties voor 2025 spreken van 175 zettabyte. Op basis van zulke cijfers wordt beleid gemaakt, worden investeringen gerechtvaardigd, en wordt de noodzaak van meer datacenters onderbouwd. Met alle gevolgen van dien, want het raakt schaarse bouwgrond in Nederland, waterverbruik en energieconsumptie, en nog wel meer.
Wat we nu een data-explosie noemen, is eigenlijk vooral systeemruis: allemaal overhead en digitale bureaucratie die zichzelf in stand houdt
Bestuurders en IT-leveranciers shoppen graag selectief in dit soort rapporten. Maar er zijn ook andere cijfers in die rapporten. Cijfers die hele andere zaken belichten. Hele relevante cijfers ook, die veel beslissers lastig of ongewenst vinden.
Minder dan twee procent van alle data die in een jaar wordt gecreëerd, wordt daadwerkelijk bewaard tot het jaar daarop, aldus datzelfde IDC. De rest verdwijnt, omdat het gaat om streams die worden bekeken, caches die worden gewist en logs die worden overschreven. En van de data die wél wordt bewaard, is negentig procent een kopie van iets wat al eerder bestond. Slechts tien procent is werkelijk uniek, becijferde IDC’s David Reinsel in 2020.
Dit weten we al decennia
In 1991 publiceerde George P. Huber in het wetenschappelijke tijdschrift Organization Science een baanbrekend onderzoek naar hoe organisaties leren. Hij stelde vast dat een centraal probleem onopgelost bleef: hoe kunnen afdelingen die informatie bezitten en afdelingen die informatie nodig hebben elkaar snel en betrouwbaar vinden? De oplossing die we kozen was niet beter zoeken, maar meer kopiëren. En bij alle sessies die ik in grotere organisaties geef, stel ik vast dat dat probleem alleen maar erger geworden is.
Begin jaren negentig verscheen in het vakblad IEEE Communications Magazine een artikel met de titel “The information explosion: fact or myth?” Onderzoeker William J. Clark van Colorado State University analyseerde een eeuw aan data over informatiegroei in de Verenigde Staten en kwam tot dezelfde conclusie: het is de informatiedistributie die explosief groeit, niet de informatieproductie.
Maar dit probleem bestond al veel langer. Al in 1931 formuleerde de Indiase bibliothecaris S.R. Ranganathan zijn vijf wetten van de bibliotheekwetenschap, met als vierde wet: bespaar de tijd van de lezer. Na de Tweede Wereldoorlog ontwikkelde de Amerikaanse archivaris Theodore Schellenberg het concept “appraisal”: de systematische waardering van informatie op bewijswaarde en bruikbaarheid. Niet alles wat wordt geproduceerd, verdient bewaring. Deze inzichten zijn voor informatieprofessionals oud nieuws.
Het opslaan en verplaatsen van redundante data is voor cloudproviders en hardwarefabrikanten een enorm verdienmodel
Het medium is veranderd, het principe niet. Of je nu een magazijn vol papier beheert of een serverpark vol bits: niet alles verdient bewaring. Maar doordat wat we opslaan niet meer fysiek zichtbaar is, vergeten we gemakshalve dat het wel degelijk ruimte kost. En de impact daarvan is uiteindelijk terug te zien in ons landschap.
Waarom er met deze kennis en inzichten niks gebeurd is? De verklaring is, zoals vaak bij zaken die je lastig kunt verklaren, dat iemand eraan verdient. In dit geval is dat de IT-sector. Het opslaan en verplaatsen van redundante data is voor cloudproviders en hardwarefabrikanten een enorm verdienmodel. Elke kopie genereert namelijk omzet en elke synchronisatie kost rekenkracht die wordt afgerekend. Slimmer ontwerpen betekent minder opslag verkopen. Dat komt de gevestigde economische orde slecht uit.
Zo kon een narratief ontstaan waarbij datavolumegroei synoniem werd aan vooruitgang. Terwijl de term “gebakken lucht” in dit geval eerder op zijn plaats is.
De economische cijfers bevestigen dit beeld
Een krachtige indicator zijn de economische statistieken. De economie groeit met een paar procent per jaar. En dat is niet vreemd. Er zijn maar zoveel uren in een dag en maar zoveel spullen die je kunt kopen. Maar het datavolume groeit volgens de IT-sector met tientallen procenten per jaar. Die cijfers verhouden zich niet logisch tot elkaar. Tenzij je net als ik tot de conclusie komt dat de meeste data economisch en maatschappelijk gezien niets toevoegen. Behalve dan aandeelhouderswaarde voor vastgoedpartijen die geld verdienen aan datacenters.
Neem een simpele factuur. Daarop staan nog steeds dezelfde dingen als vijftig jaar geleden: wie, wat, wanneer en hoeveel. Maar de digitale verpakking eromheen is flink toegenomen. Elke factuur bestaat tegenwoordig in meerdere systemen tegelijk, met metadata, logbestanden en back-ups van dat alles. We hebben nu duizenden keren meer bits nodig om één euro te factureren dan dertig jaar geleden.
Dit wijst niet op een toename van waardevolle kennis, maar meer op een flinke afname in de informatiedichtheid van onze systemen. Wat we nu een data-explosie noemen, is dus eigenlijk vooral systeemruis: allemaal overhead en digitale bureaucratie die zichzelf in stand houdt.
Waar komen al die dubbele data vandaan?
Een bestand in de cloud wordt doorgaans al gauw drie keer gekopieerd naar verschillende locaties. Voor het geval ergens een server uitvalt. Voor noodherstel worden extra back-ups gemaakt, en ook weer op andere plekken in andere regio’s. En dan begint het pas. Bij elke wijziging worden allerlei logbestanden aangemaakt. Die logs gaan naar allerlei systemen voor analyse. Naar zoekmachines. Daardoor kan één bestand al vrij snel in tientallen varianten bestaan, verspreid over de hele infrastructuur. En dat staat nog los van de vele tientallen kopieën van elk document, omdat mensen nog steeds allerlei versies in mailtjes en mappen bewaren.
Natuurlijk zijn sommige kopieën noodzakelijk. Drie replica’s in de cloud voor als een server uitvalt, daar valt wat voor te zeggen. Maar ergens onderweg zijn we het verschil kwijtgeraakt tussen technische noodzaak en organisatorische slordigheid. Zo kom je uit bij het IDC-cijfer dat negentig procent van alle opgeslagen data uit kopieën bestaat.
Wat slaan we dan wél op?
Als de mensheid geen kennisexplosie doormaakt, wat verklaart dan de groeiende vraag naar opslagcapaciteit in datacenters? Het antwoord hangt af van welk segment je bekijkt. Hyperscale-datacenters bedienen grofweg twee werelden. Enerzijds is er entertainment: videostreaming, sociale media en gaming, samen goed voor ruwweg een derde van het datacenterverbruik. Anderzijds is er enterprise: de zakelijke cloud waar overheden en bedrijven hun Microsoft 365, Salesforce en SAP-omgevingen in onderbrengen.
Voor het entertainmentsegment valt weinig te optimaliseren. Netflix dedupliceert vanzelf, want miljoenen kijkers streamen dezelfde film. Maar voor het enterprise-segment, waar ook de Nederlandse overheid grootgebruiker is, ligt dat fundamenteel anders.
Onderzoek van Veritas en anderen schetst een ontnuchterend beeld van wat organisaties daadwerkelijk opslaan. Gemiddeld is 54 procent van alle enterprise-opslag zogenaamde dark data: bestanden die ooit zijn aangemaakt, maar nooit meer worden geopend of geanalyseerd. Daarbovenop is 32 procent ROT-data: redundant, obsolete of trivial. Slechts 14 procent van alle bedrijfsdata is daadwerkelijk businesscritical. Organisaties slaan dus voor 86 procent rommel op. En die rommel wordt vervolgens vermenigvuldigd.
Neem de alledaagse praktijk van e-mailbijlagen. Een medewerker stuurt een PowerPoint van vijftien megabyte naar twintig collega’s. Zonder deduplicatie betekent dat driehonderd megabyte aan opslag voor één presentatie. Voeg daar de doorgestuurde versies aan toe, de kopieën in persoonlijke mappen, de synchronisatie naar telefoons en laptops, en één kwartaalrapportage kan honderden kopieën genereren.
“Maar wij werken in SharePoint, dan is dat toch opgelost?” Dat is een hardnekkig misverstand
Een conservatieve rekensom maakt de schaal inzichtelijk. Nederland telt naar schatting anderhalf miljoen kantoorwerkers die regelmatig presentaties maken of ontvangen. Reken op vijftig presentaties per persoon per jaar, gemiddeld vijftien megabyte per stuk. Door lokale kopieën, e-mailbijlagen en cloudredundantie bestaat elke presentatie al snel in zes tot achttien exemplaren. Dat levert jaarlijks zo’n twintig petabyte aan opslagruimte op. Alleen aan PowerPoints. En omdat vrijwel niemand oude presentaties verwijdert, loopt die hoeveelheid data na een paar jaar flink op. Alleen aan Nederlandse kantoorpresentaties.
“Maar wij werken in SharePoint, dan is dat toch opgelost?” Dat is een hardnekkig misverstand. Microsoft heeft bevestigd dat SharePoint en OneDrive geen automatische deduplicatie toepassen. Hetzelfde bestand op twee locaties betekent twee keer opslag in het datacenter. De single-instance storage die vroeger in Exchange bestond voor e-mailbijlagen, is sinds 2010 afgeschaft. De rommel is niet verdwenen, hij is verhuisd naar de cloud.
En daar komt de cloudredundantie bovenop. Azure slaat standaard drie tot zes kopieën op van elk bestand, verspreid over datacenters voor betrouwbaarheid. Dat is op zich verstandig voor kritieke data. Maar het probleem is dat die redundantie wordt toegepast op alles, zonder onderscheid. De 14 procent waardevolle data krijgt drie tot zes kopieën. Prima. Maar de 86 procent rommel krijgt dezelfde behandeling. De cloudarchitectuur past het principe van de archivaris precies omgekeerd toe: eerst kopiëren we alle informatie en misschien selecteren we die later ooit.
De Nederlandse overheid illustreert dit patroon. Vrijwel alle gemeenten en de gehele Rijksoverheid migreren naar Microsoft 365. Dat zijn bijna 160.000 rijksambtenaren plus honderdduizenden gemeenteambtenaren, elk met een terabyte OneDrive-opslag en toegang tot SharePoint. Al hun e-mails, documenten en vergadernotities verhuizen naar Microsofts datacenters in Middenmeer en elders. Zonder automatische deduplicatie, met standaard cloudredundantie, bovenop de back-ups.
We bouwen datacenters voor informatie die we produceren om te vergeten, en maken daar vervolgens zes kopieën van
Al in 1945 beschreef de Amerikaanse wetenschapper Vannevar Bush in zijn essay “As We May Think” een alternatief. Bush was geen dromer: hij coördineerde de wetenschappelijke projecten achter de Tweede Wereldoorlog en zocht naar manieren om al die kennis te overzien. Hij noemde zijn idee de memex: een systeem waarin kennis niet door kopieën zou worden verspreid, maar door verbindingen te leggen tussen informatie-eenheden.
Die visie is technisch allang realiseerbaar. Als je van elke naam, elk begrip, elke publicatie maar één exemplaar opslaat in een open formaat en daar consequent naar verwijst met bi-directionele hyperlinks, heb je geen kopieën meer nodig. In plaats van dezelfde PowerPoint twintig keer te kopiëren naar twintig inboxen, verwijs je er twintig keer naar. En in plaats van je data te verspreiden over datacenters waar je geen zicht op hebt, beheer je lokale bestanden zelf. Niet alleen heb je minder opslag nodig: je werkt sneller, je informatie is beter verbonden en alles is doorzoekbaar op één plek. De technologie bestaat, maar wat ontbreekt is het besef dat het anders kan.
De AI-paradox
De huidige AI-golf wordt vaak aangevoerd als het ultieme bewijs dat we meer data nodig hebben. De roep om grotere taalmodellen, meer trainingsdata en meer rekenkracht wordt steeds luider. Het International Energy Agency voorspelt dat het elektriciteitsverbruik van datacenters wereldwijd verdubbelt naar 2030, waarbij AI de belangrijkste drijfveer is.
Maar genereert AI dan niet zelf explosief veel nieuwe data? Niet echt. De meeste AI-output is vluchtig: geproduceerd om te consumeren, niet om te bewaren. De meeste ChatGPT-gesprekken worden na verwerking direct gewist. En wat overblijft is per definitie afgeleide kennis: nieuwe combinaties van bestaande informatie. AI creëert geen nieuwe feiten, het remixt wat al bestond.
De winnaars in het AI-tijdperk zullen niet de partijen zijn met de meeste data, maar de partijen met de best gestructureerde data
De ironie is dat AI-modellen zelf beter presteren op schone, ontdubbelde data. Google-onderzoekers toonden aan dat modellen getraind op gededupliceerde data beter presteren met minder trainingstijd. Trainen op grote hoeveelheden rommel van het web leidt tot wat onderzoekers “model collapse” noemen: de output wordt steeds eenvormiger en slechter, vergelijkbaar met inteelt.
En hier ontstaat een vicieuze cirkel. AI-gegenereerde content gaat terug het web op en vergiftigt toekomstige trainingsdata. De hoeveelheid unieke kennis neemt niet toe, alleen het volume.
De winnaars in het AI-tijdperk zullen niet de partijen zijn met de meeste data, maar de partijen met de best gestructureerde data. Cloudproviders hebben er belang bij om te beweren dat AI onverzadigbaar is. Hoe meer data er nodig lijkt, hoe meer opslag en rekenkracht er wordt verkocht.
Wat betekent dit voor beleid?
Als het grootste deel van de datagroei bestaat uit redundantie, tijdelijke content en systeemruis, dan schiet het huidige beleidskader tekort. De discussie gaat nu primair over energieverbruik en ruimtelijke ordening. Terechte zorgen, maar ze missen een fundamentelere vraag: welk maatschappelijk belang dienen we met het faciliteren van deze datastromen?
Beleidsmakers meten nu vooral hoe efficiënt een datacenter zijn energie gebruikt voor rekenkracht versus koeling. Maar een datacenter kan technisch efficiënt zijn en toch maatschappelijk zinloos als het vooral kopieën en ruis opslaat.
Een betere vraag: hoeveel werkelijk unieke, blijvende informatie wordt er opgeslagen per eenheid energie? Dit vereist een andere manier van denken, maar het is wel de vraag die we zouden moeten stellen.
De huidige projectie dat datacenters naar vier tot negen procent van het wereldwijde stroomverbruik gaan, is geen natuurwet. Het is het gevolg van keuzes. Maar dan moet je je wel bewust zijn van de keuzemogelijkheden.
Ik pleit overigens niet tegen alle datacenters. Wetenschappelijk onderzoek in de genetica of klimaatmodellering vereist dat enorme datasets dicht bij de rekenkracht staan. Maar voor het overgrote deel van de digitale wereld geldt: documenten, e-mails en spreadsheets kunnen prima lokaal op apparaten van gebruikers leven. Natuurlijk hebben we datacenters nodig. Maar niet per se op de schaal waarop we ze nu bouwen op onze schaarse grond.
Mijn oproep aan beleidsmakers: vraag bij elke nieuwe datacentervergunning niet alleen naar energieverbruik en koeling, maar ook naar wat er precies wordt opgeslagen. En of dat niet anders kan.
De les van de bibliothecaris
Informatieprofessionals in bibliotheken, archieven en documentatiecentra weten dit al lang. Hun vak draait niet om het bewaren van alles, maar om het evalueren van alles en het vindbaar maken van wat waardevol is. De fysieke grenzen van hun magazijnen dwongen hen tot selectie. Die discipline is in de digitale wereld verloren gegaan, juist omdat opslag zo goedkoop leek.
Opslag is niet goedkoop. Het kost energie, ruimte, grondstoffen en maatschappelijk draagvlak.
Voordat we als samenleving besluiten om het stroomverbruik van een middelgrote stad te reserveren voor een nieuw datacenter, mogen we vragen wat we daar eigenlijk mee gaan doen. En als het antwoord is dat we er vooral kopieën, streams en logs mee faciliteren: kan dat niet anders?
De data-explosie is uiteraard geen natuurverschijnsel. Het is het logische gevolg van een markt waarin opslag goedkoop leek. Maar de werkelijke kosten werden doorgeschoven: naar ons stroomnet, ons landschap en naar onze waterhuishouding. Elke byte die we niet opslaan, hoeft niet gekoeld te worden in Middenmeer.
Bronnen
- IDC, “The Digitization of the World – From Edge to Core” (Data Age 2025 whitepaper), november 2018
- IDC Global DataSphere Forecast 2020-2025 (BusinessWire, maart 2021)
- Veritas Global Databerg Report, 2016
- Splunk, “The State of Dark Data”, 2019
- George P. Huber, “Organizational Learning: The Contributing Processes and the Literatures”, Organization Science, 1991
- William J. Clark, “The information explosion: fact or myth?”, IEEE Communications Magazine, 1992
- S.R. Ranganathan, “The Five Laws of Library Science”, 1931
- T.R. Schellenberg, “Modern Archives: Principles and Techniques”, University of Chicago Press, 1956
- Microsoft Q&A, “SharePoint does not have a built-in de-duplication feature”, 2024
- Wikipedia, “Single-instance storage was dropped completely in Microsoft Exchange Server 2010”.
- Jordan Tigani, “Big Data is dead”, MotherDuck Blog, 2023
- Vannevar Bush, “As We May Think”, The Atlantic, juli 1945
- IEA, “Energy and AI” (Special Report), april 2025
- Katherine Lee et al., “Deduplicating Training Data Makes Language Models Better”, ACL 2022
- Shumailov et al., “AI models collapse when trained on recursively generated data”, Nature, juli 2024
- Synergy Research Group, “Hyperscale Data Center Capacity”, 2025
- Jaarrapportage Bedrijfsvoering Rijk 2024
Martijn Aslander schrijft regelmatig over digitale fitheid en kennismanagement. Hij is tevens mede-initiatiefnemer van de Maand van de Digitale Fitheid, die de komende editie over datasoevereiniteit gaat, en projectcoördinator van de Pilot Informatieautonomie.

Plaats een reactie
U moet ingelogd zijn om een reactie te kunnen plaatsen.