Media

Bomen

Iedereen die met enige regelmaat op internet zoekt, weet het. Er is niet alleen veel informatie, er is zo veel dat het onmogelijk is om door de bomen het bos te zien. Welk onderwerp je ook neemt, waar je de zoektocht ook begint, na twee, drie klikken ben je verdwaald.

Dat dit niet het geval lijkt, komt doordat de aangeboden informatie netjes op een rijtje staat met, afhankelijk van de ordening (meest gevraagd, laatst aangevuld, alfabetisch, gemanipuleerd), het eerste eerst en het laatste laatst. Maar als diezelfde informatie in de vorm van een web (= bos) getoond zou worden, zou het gevoel van verdwaling onmiddellijk zijn. Neem alleen het minuscule onderwerp waarmee ik me gisteren even bezighield. Het is zo ‘klein’ dat 99 procent van de Nederlanders er vermoedelijk nooit van gehoord heeft: magnitizdat, de geluidsvariant van samizdat, illegaal geluid ten tijde van het sovjetbewind dus. Alleen al Google Scholarvermeldt meer dan 150 artikelen waarin het onderwerp voorkomt. Het is onmogelijk die allemaal te lezen. Dus wat doe je? Je kijkt naar de twee meest gezochte en neemt er nog één of twee waarvan de titel goed klinkt. Die lees je. Voor je het weet ben je twee uur verder, maar eigenlijk heb je geen idee of het ondertussen bij jou gevormde beeld juist is en bijvoorbeeld niet precies de clichés weergeeft die je juist probeert te vermijden. Immers iedereen die over iets over magnitizdat wil weten, zoekt op ongeveer dezelfde wijze en dus is het gevaar groot dat iedereen herhaalt wat iedereen herhaalt.

Sinds de vraag aan een leerling van Aristoteles hoeveel boeken er in de bibliotheek van Alexandrië staan, zijn onderzoekers gefascineerd door de hoeveelheid informatie waarover ‘we’ (de mensheid) beschikken. Wetenschappelijke pogingen dit te berekenen dateren op z’n laatst van het moment dat de Amerikaanse wiskundige en jongleur (!) Claude Shannon in 1949 het begrip bit introduceerde. Tot de doorbraak van het internet, ruim tien jaar geleden, viel die hoeveelheid, hoe gigantisch ook, nog wel enigszins in kaart te brengen. Maar sindsdien is de toename dermate explosief dat we allerlei onmogelijke begrippen nodig hebben om haar uit te drukken, quadrillon bijvoorbeeld of quintillion, dat wil zeggen tien met vijftien of achttien nullen. De verklaring voor de enorme informatiegroei is eenvoudig: in het digitale tijdperk ‘kost’ informatie niks, geen papier, geen inkt, geen celluloid, ‘niks’. Vandaar dat even ingewikkelde als fascinerende berekeningen (zie onder meer martinhilbert.net) tot de stelling komen dat er op dit moment voor elk mens ter wereld ongeveer 320 keer zo veel informatie beschikbaar is als waarover de bibliotheek van Alexandrië destijds beschikte, dat die hoeveelheid jaarlijks met bijna zestig procent toeneemt (dus ongeveer elk anderhalf jaar verdubbelt) en opgeslagen op cd’tjes vijf stapels van hier tot aan de maan zou innemen. Op dit moment is nog slechts twee procent van al onze informatie niet-digitaal. Tien jaar geleden was dat hoogstens een kwart. Reken maar uit wat dit betekent voor over weer tien, laat staan honderd, jaar verder.

Wat moeten we met dit alles? Om te beginnen goed nadenken over onderzoeksmethoden, verslaglegging, wetenschap, journalistiek en ga zo maar door. Het zou kunnen zijn dat alle traditionele vormen daadwerkelijk overboord moeten. Toch is dat niet waar ik naartoe wil. Dat is dat er eigenlijk nog slechts één manier lijkt te bestaan om zoveel informatie uit te drukken: cijfers. Vandaar de enorme betekenis van wat big data wordt genoemd. In onze huidige informatiegroei verzamelen we ongekende hoeveelheden kennis over van alles en nog wat: weersomstandigheden, internet-zoekgedrag, ziektes, autopech, filevorming, criminaliteit. Zolang het om duizend, tienduizend, ja zelfs honderdduizend gegevens gaat, zeggen die misschien niet zo veel maar wat gebeurt er als het miljoenen, miljarden, biljarden of meer data betreft? Is de kans niet heel groot, met marges van 0,01 of 0,00001 procent, dat we daardoor allerlei zaken ‘weten’ zonder erover na te hoeven denken? In dat geval breng je de auto naar de garage voordat er iets met de remmen gebeurt. We weten immers dat bij type X, met rijgedrag Y en bij de hoeveelheid kilometers Z, remstoornissen optreden. En dus weet je precies, met genoemde marge, wanneer de remmen het begeven. Dit geldt op alle gebieden. Zie maar eens hoe Google Translate zich ontwikkelt, nog even en het vertaalt teksten beter dan een vertaler. Laatstgenoemde is hoogstens nog nodig om de uitzonderingen eruit te halen.

Wat dit alles betekent? Veel, bijvoorbeeld dat het begrip waarheid vervangen wordt door waarschijnlijkheid, oorzaak door (cor)relatie en onderzoek door controle. We leven nu ruim tien jaar in een digitaal tijdperk. Dat weten we. Maar we hebben nog geen idee wat dat weten betekent omdat we niet begrijpen dat de wijsheid zich heeft verplaatst: van de enkeling naar de massa. Fascinerend en eng.