TIEN DOORBRAKEN: VAN SLIMME MATERIALEN TOT EFFICIËNTE PLANTEN

10 Interpreteren zonder fouten

Machines om te begrijpen wat die overdaad aan data nu eigenlijk betekent.

Medium 10 informatie

Data, data en nog eens data. Aan informatie heeft de gemiddelde wetenschapper geen gebrek. Als er één thema is dat de verschillende bèta-disciplines met elkaar verbindt, is dat het wel. Met een paar drukken op de knop genereert de computer genoeg gegevens om een onderzoeker een paar weken zoet te houden.

Die data-overvloed is aanleiding om ons opnieuw te buigen over het werk van Claude E. Shannon, die als eerste grondig nadacht over de vraag: wat is informatie eigenlijk? In zijn klassieke artikel A Mathematical Theory of Communication onderscheidde de Amerikaanse wiskundige drie manieren waarop we kunnen denken over data: op het niveau van de techniek, op het niveau van de semantiek en op dat van de invloed van informatie. Nu de techniek ons met grote hoeveelheden informatie overspoelt, wordt de vraag naar de betekenis ervan alleen maar urgenter.

Dat lijkt voor de hand te liggen, maar wat de juiste wiskundige tools zijn om ruwe data op hun betekenis te beoordelen, is onderwerp van controverse. Dat blijkt uit de bijdrage van statisticus Peter Grünwald. Hij keert zich tegen het gebruik van zogenoemde p-waardes in de statistiek die de kans weergeven dat een bevinding op toeval is gebaseerd. Bij een p-waarde van minder dan vijf procent geldt een onderzoek doorgaans als significant. Grünwald windt er geen doekjes om. Deze methode, vooral populair in de biologie, psychologie en geneeskunde, is ‘ondeugdelijk’ en levert ‘foute resultaten’ op. Het probleem is echter dat statistici van mening verschillen over wat het juiste alternatief is. Grünwald hoopt dan ook op een grand unified theory of statistics.

Ook op praktisch niveau houdt de vraag naar betere informatie mensen bezig. Zie bijvoorbeeld het werk van Jantien Stoter, die aan de Technische Universiteit Delft onderzoek doet naar geo-informatietechnologie. De belangrijkste ontwikkeling op haar vakgebied: dat computers daadwerkelijk gaan begrijpen wat de puntjes, lijntjes en vlakjes op een weergave van het aardoppervlak betekenen. De uitdaging is ervoor te zorgen dat machines digitale ruimtelijke gegevens ook in de derde dimensie (ruimte), de vierde (tijd),en zelfs de vijfde (op verschillende detailniveaus) snappen.

Een vergelijkbaar vraagstuk uit de machine learning wordt aangedragen door Peter Grünwald. Hij houdt zich bezig met spraakherkenningssoftware, waarbij computers de stem van mensen leren herkennen en zo het gesproken woord in tekst kunnen omzetten. Dankzij de samenwerking tussen statistici, informatie­wetenschappers en robotici is ook op dit gebied is de laatste tien jaar enorm veel vooruitgang geboekt. Joost Batenburg op zijn beurt buigt zich over de vraag hoe scanners te maken die met zo min mogelijk meetgegevens zo nauwkeurig mogelijke informatie geven. Dat is belangrijk op bijvoorbeeld vliegvelden of in het ziekenhuis. Je wil toeristen immers niet urenlang laten wachten of patiënten te lang aan straling blootstellen.

De basale vraag die het scala aan innovaties met elkaar verbindt wordt gesteld door Kees Schouhamer Immink: hoe kunnen grote hoeveelheden informatie met zo min mogelijk fouten overgebracht worden? Het is de kwestie die informatici al een paar generaties drijft, zo valt te lezen in zijn bijdrage. Op zoek naar zuivere informatieoverdracht ontwikkelden ze foutencorrigerende codes, het type onderzoek waarmee ook Schouhamer Immink zijn sporen verdiende. Onderzoek dat aan de basis lag van de compact disc, de dvd, mp3-spelers, digitale tv, om maar een paar voorbeelden te noemen. Overigens stelt de hoogleraar aan het Instituut voor Experimentele Wiskunde in Essen zich hier bescheiden op. Hij vermeldt niet dat hij zelf een sleutelfiguur is in deze geschiedenis: Schouhamer Immink heeft meer dan 1100 patenten op zijn naam staan, waaronder de code die in de jaren zeventig leidde tot het uitvinden van de cd door Philips.

Inmiddels heeft de informatietechnologie ons op een punt gebracht waarop het paradigma van mens, machine en informatie als gescheiden onderwerpen niet meer volstaat. Dat is althans de mening van Johan van Benthem, universiteitshoogleraar pure en toegepaste logica aan de Universiteit van Amsterdam. Ook hij onderstreept nog maar eens hoezeer ict het leven heeft veranderd (‘van de computer in het huishouden tot het internet als wapen in de revolutie’). Sluipenderwijs is er iets geheel nieuws ontstaan dat Van Benthem omschrijft als ‘een complex systeem van machines en menselijke gebruikers, die zowel samenwerken als concurreren bij allerlei taken’.

Wat dat betreft vertoont de relatie tussen mens en computer een overeenkomst met de geneeskunde en biologie: één-op-éénrelaties maken plaats voor complexe verbanden. Dat werpt nieuwe, fundamentele vragen op. Van Benthem noemt het many-mind-problem, waarbij rekenen niet alleen ‘calculeren’ is, maar ook ‘rekening houden met’, met wat anderen weten, denken en willen. En die ander kan net zo goed een computer zijn.

Het lastige is dat we dit soort vragen nog maar nauwelijks kunnen bevatten. Onze hersenen zijn als het ware geprogrammeerd volgens de indelingen uit de ‘oude’ informatietechnologie. Duidelijk is wel dat het verhaal van ‘machine vervangt de mens’ te simplistisch is, concludeert Van Benthem. Is dit te vaag? Wellicht. Maar volgens de wiskundige, die zichzelf ‘schaamteloos ouderwets’ noemt, vergt wetenschap nu eenmaal abstractie.


Tekening: Femke van Heerikhuizen