Big data

De digitale revolutie leidt tot meer kennis en nieuwe inzichten. Maar komt het de kwaliteit van onderzoek wel ten goede?

De datarevolutie is een enorme opsteker voor de geesteswetenschap. Gegevens die vroeger met de grootste moeite werden vergaard komen nu met één druk op de knop te voorschijn. Dat is niet alleen interessant vanwege de hoeveelheid data die nu beschikbaar komt, maar ook vanwege de geavanceerde zoekmethodes. Filosofe Arianne Betti steekt bijvoorbeeld de loftrompet over Google’s NGram Viewer. Met dit programma kun je miljoenen boeken analyseren. Wie zoekt naar de joodse kunstenaar Marc Chagall, ziet in een oogwenk dat zijn naam tussen 1934 en 1940 steeds minder voorkomt in alle Duitstalige boeken. Historici verkrijgen aldus een rijkdom aan data om de opkomst van de censuur tijdens het nazi-regime te beschrijven. Vroeger moesten ze honderden boeken doorvlooien om tot zo’n conclusie te kunnen komen, nu gebeurt het in een handomdraai. Niet alleen dankzij NGram Viewer, maar ook dankzij de grootscheepse digitalisering van oudheidkundige geschriften, bijvoorbeeld door de Koninklijke Bibliotheek. Met een druk op de knop komen alle pamfletten over het rampjaar 1672 of over Napoleon beschikbaar, schrijft Lotte Jensen, Neerlandica in Nijmegen, enthousiast. Dat scheelt talloze uren gesnuffel in oude geschriften.

Ook taalwetenschappers profiteren. Nu zoveel data beschikbaar komen, wordt het veel duidelijker hoe dialecten zich ontwikkelen. Dit leidt weer tot beter inzicht hoe taal in de praktijk verandert. Zelfs hypothesen kunnen nu probleemloos worden getoetst. Muziekwetenschapper Aline Honingh noemt een aardig voorbeeld. Een computeranalyse van maar liefst 36.000 melodieën laat zien dat melodieën inderdaad meestal eerst omhoog gaan en dan weer omlaag.

Meer data leiden dus tot meer kennis, tot betere hypothesen en tot betere conclusies. Ze leiden ook tot nieuwe inzichten. Mariken Teeuwen uit Utrecht schrijft opgetogen over de digitale facsimiles van middeleeuwse handschriften. Ze kan nu de bronnen die ze bestudeert zelf zien, niet alleen in tekst, maar ook in vorm, zonder daarvoor het originele exemplaar te moeten opduiken in het archief. Daarmee begrijpt ze naar eigen zeggen veel beter welke rol zo’n tekst speelde in de middeleeuwse wereld. Dat brengt in haar vak een ‘radicale verandering’ teweeg.

Zoiets geldt ook voor de theologie, als we Wido van Peursen mogen geloven. Om het Oude Testament digitaal te bestuderen is aan de VU een omvangrijke database gebouwd. Deze moet nu worden ingebracht in een Europese infrastructuur voor taalkundig onderzoek, Clarin geheten. ‘Dit vereist een nieuwe vorm van methodologische zuiverheid en terminologische helderheid in de beschrijving van het bijbels Hebreeuws.’ Met gevoel voor understatement schrijft hij: ‘De computer heeft zijn intrede gedaan in de werkkamer van de exegeet.’

Er groeit daarmee een nieuwe discipline in de humaniora: het zogeheten digital scholarship. Daarin wordt gereedschap ontwikkeld om digitale bronnen zo goed mogelijk te benutten, bijvoorbeeld met annotatie of visualisatie. Volgens de Twentse taaltechnologe Franciska de Jong zijn datasets van geesteswetenschappers nogal complex, en daarmee des te interessanter voor informatici en taaltechnologen. Ook zij noemt Clarin en het nwo-programma Catch als voorbeelden van pogingen om tot een gestandaardiseerde digitale infrastructuur te komen voor de geesteswetenschappen.

Met een druk op de knop komen alle pamfletten over Napoleon beschikbaar

Daar is niet iedereen onvoorwaardelijk blij mee. Hoe koppelen we het traditionele kwalitatieve onderzoek aan de nieuwbakken kwantitatieve aanpak? Het is zoeken naar het beste van beide werelden, schrijft Geert Buelens, hoogleraar moderne Nederlandse letterkunde in Utrecht. Met technologie kunnen we meer onderzoeken dan we ooit durfden dromen, maar het nauwkeurig lezen en interpreteren van teksten mag niet worden opgegeven. Dat laatste hoeft ook helemaal niet, oppert Inger Leemans, hoogleraar cultuurgeschiedenis aan de VU. Computerwetenschappers zijn juist geïnteresseerd in de ‘ruizige’ gegevens uit de geesteswetenschappen, die immers al eeuwen gewend zijn te werken met onvolledige data. Samenwerking kan juist nieuwe vormen van analyse opleveren, zodat we bijvoorbeeld meer inzicht krijgen in de historische dynamiek van culturen, schrijft ze.

Historica Els Kloek is alle aandacht voor digitalisering een doorn in het oog. De sector slaat door, vindt zij. Zelfs bij de knaw moet onderzoek allemaal ‘excellent’ zijn, of in het teken staan van patroonherkenning, textmining en visualisatie van data. ‘Het beleid is te veel gericht op technologie an sich, te weinig op de inhoud’, schrijft ze. Middel en doel worden door elkaar gehaald en het middel wordt ideologie. Zo dreigen we volgens haar te vergeten dat de geesteswetenschap in de eerste plaats vragen hoort te stellen aan de materie.

Ook de Nijmeegse classicus Diederik Burgersdijk uit kritiek. Komt de datarevolutie de kwaliteit en de overzichtelijkheid wel ten goede? Produceren we niet heel veel kennis waar niemand naar verlangt? Door de toenemende openbaarheid van onderzoeksgegevens voorziet hij kwesties rondom auteursrecht, herkomst en authenticiteit. Die moeten dan weer worden afgedekt in protocollen, die de geesteswetenschappen verder zullen formaliseren en juridiseren, zo vreest hij.

Het is een geluid dat meer wetenschappers laten horen. Erg fijn, al die data, maar ze stellen ons wel voor nieuwe vragen waarop het antwoord niet een-twee-drie duidelijk is. Neem bijvoorbeeld de vraag wat wel en niet te bewaren. Er is behoefte aan een nieuwe theorie die hierin als baken kan dienen, meent historica Selma Leydesdorff. De hoeveelheid digitale collecties met verhalen over vroeger groeit met de dag. Wat doen we ermee? ‘Geeft ieder geluid informatie en dient ieder geluid opgeslagen te worden? Nee dus. Er moet een selectie komen. Maar volgens welke criteria?’ Het is een vraag waar Ginette Verstraete, hoogleraar cultuurwetenschappen aan de VU, bij aanhaakt. Nadat alles is gedigitaliseerd en toegankelijk is gemaakt, zijn er wetenschappers nodig die het materiaal inhoudelijk kunnen interpreteren, die een theorie kunnen ontwikkelen en die aandacht kunnen schenken aan de maatschappelijke inbedding, schrijft ze. Anders blijven al die data maar hangen in de lucht.

Ze moeten de geesteswetenschappen ook niet overspoelen, waarschuwt taalkundige Marc van Oostendorp. Vroeger deed menige wetenschapper aan leunstoelonderzoek; hij of zij ging bij zichzelf of bij de buurman te rade voor het antwoord op een vraag. Die methode krijgt nu concurrentie van computerprogrammering en statistiek. Maar het nieuwe moet het oude niet vervangen, het moet erop voortbouwen. Want: ‘Dat leunstoelonderzoek leverde vaak zeer goede gegevens en zeer diepgravende inzichten op.’

Zo brengt de digitale revolutie onvoorziene nieuwe werkwijzen met zich mee. Het vak van historicus wordt nooit meer hetzelfde, verwacht Susan Legêne, hoogleraar politieke geschiedenis aan de VU. Naarmate niet-tekstuele data, zoals beeld en geluid, ruimer beschikbaar komen zal dit onze blik op het verleden beïnvloeden. ‘Waarschijnlijk zal in de toekomst geschiedenis niet meer worden geschreven door een historicus in een mooi boek’, schrijft ze. In plaats daarvan zal de historicus discussies over het verleden modereren – met verstand van zaken, dat wel. Het is een belangrijke functie, maar wel een andere dan voorheen.