Psycholoog Brian Nosek neemt geen blad voor de mond tijdens zijn lezing op de Wereldconferentie over Wetenschappelijke Integriteit: ‘In de wetenschap draait het niet meer om gelijk krijgen, maar om gepubliceerd krijgen.’ Nosek is een van de vooraanstaande wetenschappers op het congres, begin juni aan de Vrije Universiteit (VU) in Amsterdam. De Amerikaan is onder meer de drijvende kracht achter een ambitieus reproduceerbaarheidsproject, waarbij onderzoekers poogden tientallen belangrijke psychologische bevindingen te herhalen. In slechts 36,1 procent van de gevallen kwamen ze tot dezelfde resultaten als de originele onderzoekers, bleek uit een publicatie in Science in 2015. Begin dit jaar verschenen de eerste resultaten van een vervolgproject, waarbij kankerstudies herhaald werden. Ook die vielen niet mee: minder dan de helft bleek herhaalbaar. Hoewel daarmee niet is gezegd dat de conclusies van al die andere studies onwaar zijn, valt er duidelijk nog het nodige te verbeteren aan de betrouwbaarheid van wetenschappelijk onderzoek.

De afgelopen jaren is het reilen en zeilen van de wetenschap een serieus thema geworden, zowel in de media als in de wetenschap zelf. Dé pionier in het veld, Stanford-hoogleraar John Ioannidis, schudt de wetenschappelijke wereld in 2005 op met een publicatie waarin hij stelt dat meer dan de helft van alle resultaten in de biomedische vakliteratuur niet klopt. De belangrijkste oorzaken: slordige onderzoeksopzetten, onbetrouwbare technieken en belabberde statistiek, om het nog maar niet te hebben over vooringenomenheid, fraude en corruptie. Sindsdien reist Ioannidis de wereld over in zijn strijd tegen ‘sloppy science’.

Wie de gespecialiseerde media volgt, kan haast niet anders concluderen dan dat de wetenschap in crisis is. Op het beruchte blog Retraction Watch, opgericht om verslag te doen van het terugtrekken van wetenschappelijke artikelen, regent het dagelijks schandalen, van plagiaat tot datamanipulatie en nep-peerreview. Overheden eisen resultaat en dwingen onderzoekers tot samenwerkingen met bedrijven, die niet altijd evenveel interesse hebben in ‘de waarheid’. The Economist vat de problematiek in 2013 samen in een pittige serie artikelen, geschreven door anonieme wetenschappers, onder de titel How Science Goes Wrong.

Voor Frank Miedema, decaan in het UMC Utrecht, is de maat vol tijdens een bijeenkomst in 2012, waarop het rapport wordt gepresenteerd over de zaak-Diederik Stapel. De commissie onder leiding van psycholinguïst Pim Levelt neemt het klassieke perspectief in: Stapel is een uitzondering, de wetenschap is uniek als een zelfreinigend systeem dat efficiënt fouten en bedrog registreert en corrigeert. Fraude loont niet. Miedema pakt de microfoon en zegt: ‘Het kan toch niet zo zijn dat we deze zaal gaan verlaten en niet erkennen dat we een groter probleem hebben dan enkele uitzonderlijke fraudeurs? Dat we kampen met falende peer review, dat er een groot grijs gebied is van slecht onderzoek en dat het systeem uit zijn voegen barst?’

Niet lang na die bijeenkomst komt Miedema samen met drie gelijkgestemde hoogleraren, Huub Dijstelbloem, Frank Huisman en Wijnand Mijnhardt. Ze organiseren in 2012 drie brainstormbijeenkomsten en publiceren in het najaar van 2013 een position paper. Science in Transition is een feit. In de paper schetsen de vier waarom het systeem kapot is en er een systemische aanpak nodig is. Zelfs excessen en fraude moet je volgens Miedema plaatsen in de context van dat systeem. ‘Dat zijn de uitersten van een grijs gebied.’

Hoge verwachtingen hebben Miedema en co op dat moment niet. Maar er blijken onverwacht veel collega’s helemaal klaar met hoe het gaat in de wetenschap. Zij zijn het erover eens dat de beloningsstructuur onvoldoende spoort met het werkelijke maatschappelijke doel van de wetenschap: bijdragen aan een betere wereld en een beter leven op deze aarde. In de jaren die volgen groeit Miedema uit tot de personificatie van de wetenschapskritiek in Nederland. Zijn kritiek richt zich niet alleen op de wetenschappers zelf, maar ook op wetenschapsjournalisten. Tijdens een bijeenkomst zegt hij: ‘Waar is de Joris Luyendijk die het bedrijf wetenschap in kaart gaat brengen, vergelijkbaar met zijn Banker’s Blog op The Guardian?’

Well, here we are. Om erachter te komen hoe de wetenschap ervoor staat, ging ik ruim vier maanden op onderzoek uit en sprak ik met onderzoekers uit verschillende vakgebieden en in verschillende stadia van hun carrière. Ik richtte me daarbij met name op de medische en sociale wetenschappen, omdat die het meest onder vuur zijn komen te liggen. Het uitgangspunt daarbij was de vraag in hoeverre waarheidsvinding centraal staat in het huidige wetenschapsbedrijf en in hoeverre wetenschappers daar nog echt aan toekomen. Wekelijks berichtte ik erover op de website van De Groene. Dit verhaal schetst een overzicht.

Voor de buitenwereld draait wetenschappelijk onderzoek om het doen van ontdekkingen, die vroeg of laat toepassingen opleveren en ons steeds een stukje dichter brengen bij de waarheid. Voor wetenschappers zelf draait het vooral om iets anders: publiceren.

Wie begint in de wetenschap wordt aangesteld als promovendus. In ongeveer vier jaar tijd wordt die geacht een stuk of vijf artikelen met onderzoeksresultaten te publiceren in zo hoog mogelijk aangeschreven wetenschappelijke tijdschriften. Centraal daarbij staat de ‘impact factor’ – een cijfer dat tot op de tiende nauwkeurig wordt berekend op basis van het aantal keren dat artikelen uit het tijdschrift door anderen worden geciteerd.

Wie na het behalen van de doctorstitel doorgaat in de wetenschap gaat, liefst in de Verenigde Staten, aan de slag als postdoctoraal onderzoeker (postdoc), en wordt vaak geacht hiervoor zelf de financiering mee te brengen, aan te vragen bij geld verstrekkende overheidsinstanties en andere fondsen. Wie hoog aangeschreven publicaties heeft gescoord, maakt meer kans op beurzen en aanstellingen. Alleen de onderzoekers met de beste papieren stromen uiteindelijk door naar een hoogleraarschap, iets mindere goden bemachtigen als ze geluk hebben een andere vaste baan.

Op die publicatiedruk en impactfactorzucht is veel kritiek, omdat die onderzoekers zouden aanzetten tot gedrag dat niet altijd het beste is voor de waarheidsvinding. Vaak wordt daarbij gewezen naar China, waar auteurs tot anderhalve ton kunnen verdienen aan een publicatie in een van de drie toptijdschriften: Nature, Cell en Science. Maar ook in de Verenigde Staten strijken onderzoekers soms miljoenensalarissen op. En al is de Nederlandse topwetenschapper zelf zelden spekkoper, zijn wetenschappelijke toekomst hangt wel van die toppublicaties af.

Hoe dat in de praktijk het doen van onderzoek beïnvloedt, beschrijft een jonge postdoc, die haar verhaal anoniem doet om haar eigen carrière niet te schaden. Wanneer ze als beginnend promovendus de conceptversie van haar eerste artikel opstuurt naar haar begeleiders krijgt ze een reality check. ‘Weg met alle nuance’, is hun commentaar. ‘Dat maakt het een stuk leesbaarder.’

Jonge onderzoekers worden getest hoe ver ze daarin willen gaan, vertelt de postdoc. ‘Sinds ik in het onderzoek actief ben zijn mijn grenzen wel opgeschoven.’ Voor een van haar artikelen probeert ze een ziektemechanisme uit te vogelen, maar uiteindelijk lukt dat haar niet tot op de bodem. Ze wil opschrijven: het zou zo kunnen zijn, maar dat kunnen we nog niet hard maken. ‘Maar zo staat het er uiteindelijk niet.’

Bescheidenheid en realisme, dat zijn niet de eigenschappen waar wetenschappers voor beloond worden, merkt ook Joeri Tijdink, psychiater en wetenschapsonderzoeker aan de Vrije Universiteit in Amsterdam. In een recent artikel in PloS Medicine zet hij persoonlijkheidskenmerken van wetenschappers op een rijtje. Volgens hem lijden veel onderzoekers aan wat hij met een knipoog Publiphilia Impactfactorius noemt – een obsessie met het scoren van toppublicaties. Dat heeft invloed op hoe de resultaten opgeschreven worden. De tekst zou een feitelijke weergave van de wetenschappelijke feiten moeten geven, maar wat blijkt uit onderzoek dat hij met Utrechtse collega’s uitvoerde: de artikelen zijn met de jaren almaar meer op reclamefolders gaan lijken. Ze ontdekten dat in de afgelopen veertig jaar woorden als novel en outstanding in de samenvattingen van artikelen tot vier keer vaker voorkomen dan in de jaren zeventig. ‘Die retoriek sijpelt door naar het publiek en wordt ondertussen vaak nog verder overdreven en versimpeld, terwijl er juist nuance nodig is’, zegt Tijdink.

De afgelopen jaren deed Tijdink onderzoek naar ‘bedenkelijke onderzoekspraktijken’. Hij stelde samen met collega’s een rangorde op van ernstig naar minder ernstig en becijferde op basis van anonieme vragenlijsten hoeveel die praktijken voorkomen. Belangrijkste conclusie: het lijkt erop dat de zwaarste fraude, het vervalsen, verzinnen en overschrijven van onderzoeksresultaten, relatief weinig voorkomt en op de wetenschap als geheel weinig invloed heeft, maar dat minder ernstige vergrijpen alles bij elkaar meer impact hebben. ‘Daar moet je je echt zorgen over maken.’

Voorbeelden van die praktijken: het selectief citeren van onderzoeken die stroken met je eigen resultaten, of onderzoeken citeren om de reviewer of belangrijke collega’s blij te maken, het achterhouden van studies waar niets (opzienbarends) is uitgekomen, het aanpassen van resultaten onder druk van een sponsor, slordig werken, het maken van eerlijke maar te voorkomen fouten en het slecht begeleiden van jonge onderzoekers, waardoor die niet leren wat goed onderzoek is.

Waar die constante focus op opzienbarende resultaten op termijn toe kan leiden, ontdekte Marc Bonten, hoogleraar medische microbiologie aan het UMC Utrecht. Hij deed de afgelopen 25 jaar onderzoek naar de resistentie van bacteriën tegen antibiotica en bouwde er zijn carrière op, maar heeft daarbij steeds meer bedenkingen. ‘Tegenwoordig zie ik heel vaak dingen waarvan ik denk: dit is zó overdreven.’

‘Waar is de Joris ­Luyendijk die het bedrijf wetenschap in kaart gaat brengen, zoals in zijn Banker’s Blog?’

Als voorbeeld noemt hij de voorspelling dat tegen het jaar 2050 tien miljoen mensen per jaar zouden kunnen overlijden als gevolg van antibioticaresistentie, zoals Britse onderzoekers in 2014 voor hun regering becijferden. ‘Daar kom je alleen als je van elke aanname de worst case neemt en dan steeds de bovengrens. Dat rapport heeft een enorme politieke impact gehad.’

Bonten profiteert van de grote hoeveelheid geld die er gepompt wordt in het toegepast en fundamenteel onderzoek naar infecties en antibiotica. Hij vindt het ook goed dat er geld naartoe gaat. ‘Anderzijds wringt het. Of je gaat voor de zaak op de barricades, óf je levert gewoon keihard de data, en dan lever je dus ook data als die niet uitkomen.’

Het was nog niet zo erg geweest als het alarmisme alleen tot uiting kwam in de interpretatie van resultaten en de lobby voor onderzoeksgeld. Maar ook de onderzoeksvragen en hypotheses zelf worden erdoor beïnvloed, merkt Bonten. In de formulering daarvan wordt er namelijk vanuit gegaan dat er inderdaad sprake is van antibioticaresistentie. ‘En dan heb je een redelijke kans, als je het goed opzet, dat je het inderdaad aantoont. Dat is in mijn ogen niet altijd de juiste weg. We zouden ook regelmatig de hypothese moeten stellen dat iets zoals resistentie er níet is.’

En dan is er nog regelrechte wetenschapsfraude. Marcel van der Heyden, universitair hoofddocent op de afdeling medische fysiologie in het UMC Utrecht, stuit daar regelmatig op. Hij ontwikkelde naast zijn normale werkzaamheden een bijzondere bezigheid: het opsporen van manipulaties in wetenschappelijke artikelen.

Bij manipulaties denken we al snel aan fantasten die hele experimenten uit hun duim zuigen. Maar in het biomedisch onderzoek draait fraude veelal om iets anders: het met behulp van Photoshop of knip- en plakwerk manipuleren van de resultaten van dna- of eiwit-analyses, microscopieplaatjes en andere bewijsvoering waarop wetenschappelijke publicaties drijven.

Die manipulaties bevinden zich in de ‘figuren’ in wetenschappelijke artikelen. Resultaten bij een ‘experimentele groep’ – de groep die het te testen medicijn toegediend heeft gekregen – worden afgezet tegen de resultaten bij een ‘controlegroep’, de groep die een placebo heeft gekregen. Die figuren worden vaak met Photoshop bewerkt om ze te verduidelijken. In het geval van manipulatie worden bijvoorbeeld steeds dezelfde plaatjes gebruikt, alleen een klein beetje verschoven, gedraaid of ingezoomd, om zo de resultaten te construeren. Fake evidence, dus.

Dergelijke manipulaties, zo blijkt uit een inventarisatie die in 2016 verscheen in wetenschappelijk tijdschrift mBio, duiken op in bijna vier procent van de biomedische publicaties. Bij zeker de helft waren er sterke aanwijzingen voor bewuste fraude. Veel van die gemanipuleerde artikelen zijn nog niet teruggetrokken uit de wetenschappelijke literatuur. En als ze dat al worden, gebeurt dit zelden onder het kopje fraude. ‘Wat je heel vaak hoort als verklaring is dat er “een foutje is gemaakt”’, zegt Van der Heyden.

Waar hij zich nog het meest over verbaast, is dat dit soort gemanipuleerde resultaten überhaupt gepubliceerd worden. Hij begrijpt wel waardoor dat komt: de peer reviewers, collega’s die de artikelen beoordelen, zijn er simpelweg niet op getraind. ‘Tegen collega’s zeg ik altijd: “Let erop, want als je direct al iets ziet scheelt het je drie uur werk.” Met een getraind oog vind je altijd binnen een uur een geval. Het is net puzzelen.’

Een andere reden dat fraude zelden aan het licht komt, is dat het voor collega’s allesbehalve makkelijk is om het aan te kaarten. Een van de onderzoekers die dit ervaren, is Saskia Vorstenbosch, die promotieonderzoek doet in het Leids Universitair Medisch Centrum – tot ze in 2013 het gemanipuleer van haar directe begeleider op het spoor komt.

Het gaat om de Griekse Maria Fousteri. Zij gebruikt een ingewikkelde techniek, die ze in 2006 beschreef in het vooraanstaande tijdschrift Molecular Cell. ‘Al vaker had ik het gevoel dat de resultaten die ze presenteerde mooier waren dan ik me kon herinneren’, zegt Vorstenbosch. ‘Ze ging ook selectief om met het presenteren van resultaten. Het bekroop me dat we toe werkten naar het model dat ze in haar hoofd had zitten. Maar toen ze me de gegevens aanleverde voor een presentatie die ik moest geven wist ik zeker dat het niet klopte.’

Samen met haar hoogleraar Leon Mullenders dient Vorstenbosch een klacht in. Het lumc stelt een speciale commissie aan. Ondertussen speurt Vorstenbosch samen met een analist verder. Ze proberen met andere technieken de experimenten te verifiëren, maar zonder succes. Ze bestuderen labjournaals en oude scans van resultaten, duikelen een oude harde schijf op. ‘Ook bij de originele publicatie, uit 2006, waren verschillende figuren meerdere keren gebruikt onder andere namen.’

Na anderhalf jaar komt de commissie met haar conclusies. Mede doordat de door Vorstenbosch en de analiste verzamelde aanvullende bewijzen niet zijn meegenomen, zijn de conclusies voor Vorstenbosch onbevredigend. De uitspraak betreft alleen een ongepubliceerd geval van fraude, dus hoeven er geen artikelen te worden teruggetrokken. Vorstenbosch maakt bezwaar en een tweede commissie oordeelt in 2016 harder: in verschillende artikelen heeft Fousteri gefraudeerd, die moeten allemaal teruggetrokken worden.

Nog altijd is dat met geen van de bewuste artikelen gebeurd. Het instituut waar Fousteri dankzij een grote beurs van de European Research Council nog altijd werkt, het Alexander Fleming Biomedical Research Center in de buurt van Athene, is officieel nog in beraad over haar positie. Buitenlandse onderzoeksgroepen die betrokken waren bij de frauduleuze artikelen doen nog altijd pogingen de fraudeclaims onderuit te halen. Volgens hen, en volgens hoogleraar Leon Mullenders, heeft Fousteri de resultaten slechts mooier willen maken en de waarheid geen schade aangedaan.

Van Vorstenbosch’ promotieonderzoek was niets meer over. Ze kreeg te horen dat ze nog kon promoveren binnen het lumc. ‘Dat geloofde ik wel, maar in feite betekende het dat ik opnieuw zou moeten beginnen. Dat zag ik niet meer zitten.’

Bij haar is vooral blijven hangen hoe individualistisch het wereldje is en hoe alleen je er voor staat als je in zo’n situatie komt. ‘Mensen zijn niet geneigd om actie te ondernemen omdat het dan ook hun eigen naam kan schaden.’

Ieder voor zich , perverse prikkels, een beperkt zelfreinigend vermogen – parallellen met de bankencrisis dringen zich op. Maar waar bankiers na die crisis vooral bezig leken hun vege lijf te redden, dringt bij een groeiend aantal wetenschappers door dat het anders moet.

Steeds worden dezelfde plaatjes gebruikt, alleen een klein beetje verschoven, gedraaid of ingezoomd

Zij houden hun praktijk tegen het licht, vanuit de overtuiging dat het hun vakgebied ten goede komt. Een van hen is Judith Rosmalen, hoogleraar psychosomatiek aan de Rijksuniversiteit Groningen. Zij werkte samen met een groot aantal collega’s binnen een project, trails, waarbij de psychische, lichamelijke en sociale ontwikkeling van meer dan 2500 jongeren ruim vijftien jaar lang werd gevolgd. Alle betrokken onderzoeksgroepen voerden op gegevens uit de database hun eigen analyses uit. Ze keken onder meer naar de invloed van het stresshormoon cortisol op angst, depressie en andere psychische klachten.

Op een gegeven moment opperde Rosmalen een overzicht te maken van al die verschillende resultaten, om te kunnen laten zien wat de studie had opgeleverd. Ze begon alle artikelen te lezen, en probeerde op een whiteboard de verbanden te visualiseren tussen de verschillende resultaten. ‘Ik tekende allemaal pijlen, van “dit is verhoogd, zus verlaagd”. Maar er was geen chocola van te maken.’

Allerlei op zich interessante en relevante onderzoeksresultaten bleken niet met elkaar te rijmen. In de ene studie werd bijvoorbeeld geconcludeerd dat een hoger stressniveau bij jongeren samenging met meer angstgevoelens, in de andere studie juist het tegenovergestelde.

Hoe kon dit gebeuren, op basis van een en dezelfde database? Die vraag wierp Rosmalen op tijdens een bijeenkomst met de deelnemende onderzoekers, waar ze een foto van haar whiteboard toonde. Men was het erover eens dat de procedures om zorgvuldig onderzoek te doen op orde waren en dat die ook netjes waren gevolgd. ‘Maar daarbinnen is er nog zoveel variatie mogelijk dat er heel verschillende resultaten uit kunnen komen.’

De ene groep analyseerde bijvoorbeeld wat de jongeren zelf over hun ontwikkeling zeiden, de andere groep nam de input van de ouders. De ene groep keek naar een specifieke leeftijdsgroep, de andere keek juist breder. Vaak maakten de onderzoekers deze afwegingen zelf, soms vroeg een reviewer om de analyse aan te passen. Al die verschillende stappen zijn niet fout, maar wel vaak suboptimaal geweest, zegt Rosmalen: ‘Dat is op zich interessant, want juist door die verschillende resultaten en werkwijzen naast elkaar te leggen, kun je weer nieuwe dingen ontdekken. Maar je kunt geen algemene uitspraken doen.’

Een paar collega’s reageerden huiverig op Rosmalens voorstel om haar bevindingen te publiceren. ‘Dat zou het onderzoek kunnen schaden. Maar ik overtuigde hen ervan dat het voor zowel onszelf als anderen waardevol zou zijn om onze ervaringen te delen.’

In het stuk pleitte Rosmalen samen met een collega voor duidelijker onderlinge afspraken en definities en voor analyses van alle resultaten door een en dezelfde onafhankelijke statisticus. De publicatie, die in 2011 verscheen in Plos Medicine, toont in het klein wat in het groot ook vaak het geval is: zelfs als studies volgens de letteren der kunst worden uitgevoerd, kan een zeer diffuus beeld ontstaan, omdat resultaten elkaar tegenspreken of domweg uitsluiten. Die realiteit willen wetenschappers zelden onder ogen zien, het zou hun reputatie schaden. Rosmalen en haar collega’s hebben nooit enige negatieve consequentie ondervonden van de publicatie. ‘Wel ontvingen we veel complimenten, dus misschien moeten we minder bang zijn om dit soort dingen te doen.’

Waar het voorbeeld van Rosmalen nog redelijk conventioneel en eenmalig is, is er de laatste jaren ook een generatie onderzoekers opgestaan die structureel een frisse wind door hun wereld doen waaien. Dat doen ze door zonder schroom en vrees kritiek te uiten op collega’s en gangbare praktijken én door met ideeën voor verbetering te komen. Een van de belangrijkste Nederlandse vertegenwoordigers van die generatie is psycholoog Daniël Lakens (1980), assistent-hoogleraar aan de Technische Universiteit in Eindhoven. Hij is gespecialiseerd in onderzoeksmethoden, het bedrijven van statistiek en beloningsstructuren in de wetenschap. Tot voor kort waren dat niet de meest aansprekende onderwerpen, maar dankzij de huidige discussies over integriteit en betrouwbaarheid van onderzoek is zijn subject ineens hip. Zo hip zelfs dat hij eerder dit jaar een prestigieuze Vidi-beurs van 800.000 euro toegekend kreeg van de Nederlandse organisatie voor Wetenschappelijk Onderzoek (nwo).

Wie Lakens (@lakens) volgt op Twitter zou zich af kunnen vragen waar hij de tijd vandaan haalt om ook nog onderzoek te doen: de links naar blogs en artikelen van collega’s vliegen je om de oren. Over het verbeteren van de statistiek in zijn vakgebied, over het delen van hypotheses, onderzoeksopzetten en ruwe data – en het opzetten van samenwerkingen om replicaties en andere projecten mogelijk te maken. Een van die initiatieven is Study Swap, een platform waar onderzoekers onderling afspreken om elkaars studie te reproduceren en kennis en apparatuur te delen.

Lakens, wiens blog the 20% statistician heet (als je twintig procent van de statistiek snapt, wordt tachtig procent van je conclusies een stuk betrouwbaarder), is een van de frontliners die de hervorming van de wetenschap afdwingen en vorm geven met discussies, provocaties en initiatieven. Zo zorgde hij ervoor dat de nwo het eerste nationale fonds specifiek voor replicatiestudies heeft opgezet. Ook geeft Lakens workshops aan studenten, collega’s en journalisten over statistiek en dataverzameling.

Pas wanneer Lakens intensief met die materie bezig gaat, beseft hij hoe cruciaal het is om studies op een heel nette manier op te zetten. Een van de dingen die hij nooit leerde was het systematisch, op basis van berekeningen, vaststellen hoe groot de steekproef moet zijn. ‘Waarom had niemand me dat verteld? Wij deden meestal maar wat. Twintig of zo.’ Hij specialiseert zich in methodologische en statistische vraagstukken. Steeds komt hij uit bij de vraag: waarom doen we wat we doen omdat we dat nu eenmaal doen, en niet omdat we dat hebben uitgerekend of beredeneerd?

Om collega’s bewust te maken van deze inzichten ontwikkelde Lakens een Massive Open Online Course (mooc), getiteld ‘Improving your statistical inference’, die in oktober werd onderscheiden met de Leamer-Rosenthal Prize for Open Social Science van Berkeley University. Dit online college gaat niet over de statistiek die wetenschappers bedrijven zodra ze hun onderzoeksresultaten binnen hebben, maar eromheen. ‘De vragen die je jezelf stelt voordat je een studie opzet, het nadenken daarover. Wat is nu echt de vraag die je wil beantwoorden en wat heb je daarvoor nodig?’

Een nog iets jongere vertegenwoordiger van de generatie Lakens is een andere actieve twitteraar en wetenschapsverbeteraar: Chris Hartgerink. Uitgerekend dankzij hoogleraar sociale psychologie Diederik Stapel raakt Hartgerink als student geïnteresseerd in de wetenschap. Het nieuws dat Stapel fraude heeft gepleegd, brengt alles wat hij dacht te weten over de wetenschap aan het wankelen. ‘Dan zit je wel even van: waar doe je het voor, als dit je rolmodel was?’

Hij besluit toch de wetenschap in te gaan en zich te richten op onderzoeksmethoden. Zo leert hij over ‘metaproblemen’ in de wetenschap: systematische fouten in het doen en rapporteren van onderzoek. P-hacking bijvoorbeeld, het net zo lang speuren in je onderzoeksresultaten tot je een significant resultaat hebt gevonden dat je kunt publiceren, waardoor toevalsbevindingen tot waarheden worden verheven. En publicatiebias, het fenomeen dat studies met kleine effecten of negatieve resultaten niet worden gepubliceerd waardoor er een vertekend beeld ontstaat. ‘Dat was mijn tweede desillusie. We hadden dus de echte fraudeurs, maar dan heb je dus ook nog dat het gros dat, met de beste bedoelingen, allerlei vicieuze problemen veroorzaakt. Op een gegeven moment dacht ik: komen we hier nog uit? In eerste instantie dacht ik van niet. Soms denk ik dat nog steeds, eerlijk gezegd.’

Maar vanuit zijn pessimisme ontstaat een nieuwe gedrevenheid. De vraag wat goed onderzoek is blijft door zijn hoofd spoken. Hij komt in contact met anderen die zich bezighouden met dezelfde vragen. Dit wordt zijn nieuwe missie: kijken hoe het systeem beter kan. Zijn voorlopige antwoord? Radicale transparantie. De afgelopen jaren kwam er een beweging van activistische wetenschappers op gang, onder meer op Twitter opererend onder de hashtag #OPENSCIENCE, waar Hartgerink (@chartgerink) actief deel van uitmaakt.

Onder invloed van deze beweging verlangen steeds meer wetenschappelijke tijdschriften en instituten dat wetenschappers hun ruwe data, materialen, gebruikte code en procedures online zetten, zodat anderen de mogelijkheid hebben die te controleren en er gebruik van te maken. Hartgerink verwacht dat openheid in de komende tien jaar een vast evaluatiecriterium wordt: ‘Hoe meer informatie de wetenschapper geeft, hoe groter de mogelijkheid is om te verifiëren en het vertrouwen te krijgen dat we de goede kant op gaan. Voor mij persoonlijk heeft vertrouwen trouwens geen plek in de wetenschap. Het gaat allemaal om verifieerbaarheid.’

‘Doordat data meer openbaar beschikbaar komen, komen mensen er veel sneller achter wat ze verkeerd doen’

Hartgerink gaat nog een stap verder dan het na afloop publiceren van de ruwe onderzoeksdata. Mensen kunnen zijn onderzoeksfiles gewoon gaandeweg zien. Zijn ‘eerste keer’ was in 2012, toen hij werkte aan een systematische overzichtsstudie. Daarbij moest hij beslissingen nemen die bepalend waren voor de selectie en analyse van de studies. Hij moest nadenken over hoe hij die ging bijhouden en verantwoorden. Dat documenteren lijkt extra werk, zegt Hartgerink, maar dat is het in feite niet: ‘Documentatie is een belangrijk deel van ons vak, maar omdat niemand het controleerde deed niemand dat goed. Afschrijvingen niet op de boeken zetten zorgt er niet voor dat er geen afschrijving plaatsvindt – niet documenteren zorgt er niet voor dat documentatie niet nodig is.’

Niet alle wetenschappers zien de ontwikkeling richting #OPENSCIENCE zitten. Ze vragen zich af waarom ze er tijd aan moeten besteden of zijn bang dat iemand anders er met hun ideeën vandoor gaat of hen net voor is met het publiceren van dezelfde resultaten. Hartgerink heeft er weinig begrip voor: ‘Uiteindelijk ga je door meer te delen veel sneller vooruit.’

Zo is er ook kritiek op het versneld online zetten van artikelen, nog voordat ze door collega’s beoordeeld zijn. Preprint, heet dat. In de exacte wetenschappen gebeurt dit al decennia, met name op de portal ArXiv.org. Ook in het biomedisch onderzoek neemt het aantal preprints snel toe, voornamelijk via ArXiv-zusje BioArXiv. In 2013 werden er nog vijftig artikelen per maand geplaatst, deze zomer waren dat er duizend per maand. Steeds meer andere vakgebieden volgen.

Het online zetten van nog niet door collega’s beoordeelde artikelen is bedoeld om de uitwisseling van kennis te versnellen en de transparantie te vergroten. Maar behoudende wetenschappers vrezen dat het peer-reviewsysteem ondermijnd wordt: wanneer collega’s en journalisten artikelen aanhalen die nog niet beoordeeld zijn, wat steeds vaker gebeurt, zou dat de kwaliteit verminderen. Hier staat tegenover dat door die aandacht van collega’s en journalisten artikelen júist met een kritisch oog bekeken worden en al worden aangepast of afgeschoten voor ze officieel worden gepubliceerd.

Volgens Hartgerink is er nog een belangrijke reden waarom veel onderzoekers geen inzage willen geven in hun werkwijze: dan ziet het er heel anders uit. Onderzoek verloopt rommelig, met teleurstellingen, tegenvallende resultaten en onverwachte wendingen. Achteraf schrijven de auteurs het met de kennis van dat moment als reconstructie op, die allesbehalve realistisch is. ‘Wij mensen houden onszelf zo makkelijk voor de gek, dat moeten we voor zijn.’ Daarom pleit hij voor het vooraf vastleggen en publiceren van onderzoeksopzet en hypothese: daardoor is de kans veel kleiner dat wetenschappers hun vragen toeschrijven naar hun resultaten.

Het zijn dit soort vernieuwers die laten zien dat een kritische houding niet zuur en negatief hoeft te zijn, vertelt Zsuzsika Sjoerds, universitair docent Cognitieve Psychologie aan de Universiteit Leiden. Ze zetten de boel op scherp, zegt ze: ‘Dankzij dit soort clubjes schrik je soms wakker en denk je “o shit, dat mogen we niet doen”, of “dat moet anders”. En doordat data meer openbaar beschikbaar komen, komen mensen er veel sneller achter wat ze, vaak onbedoeld, verkeerd doen.’

Zelf zette Sjoerds zich in voor de wetenschap door in april samen met een aantal anderen de Nederlandse editie van de March for Science te organiseren. Die was vooral bedoeld als statement tegen het antiwetenschappelijk denken dat sinds het aantreden van Donald Trump hoogtij viert. Maar dat betekent niet dat ze alleen maar als doel heeft te laten zien hoe goed wetenschappers hun werk wel niet doen. Wat haar betreft is zelfkritiek onderdeel van de wetenschap waarvoor ze demonstreerde, en ook een open houding ten opzichte van gegronde kritiek van buitenaf. Sjoerds ziet de huidige golf van kritiek als een zelfhelend proces. ‘Of in elk geval hoop ik daarop.’

Op de wereldconferentie over wetenschappelijke integriteit bleek al hoe groot het vakgebied is geworden waarin wetenschappers hun eigen vakgebied onder de loep nemen, zowel om net zoveel over zichzelf te leren als over de wereld om zich heen, als om verbetering te bewerkstelligen. Een voorbeeld hiervan is het Centrum voor Wetenschaps- en Techniekstudies (cwts) aan de Universiteit Leiden, waar een hele onderzoeksgroep werkt aan het verbeteren van de indicatoren van kwaliteit en impact die worden bijgehouden en waarop wetenschappers worden afgerekend.

Een belangrijke is de H-index of Hirsch-index, die in 2005 werd gedefinieerd door de natuurkundige Jorge Hirsch en de zogeheten citatie-impact van een onderzoeker meet. De H-index is het aantal artikelen N van een auteur dat vaker aangehaald is dan N keer. Dus als een onderzoeker zeven publicaties heeft die respectievelijk 40, 27, 13, 12, 9, 6 en 5 keer zijn aangehaald, is zijn of haar H-index 6. Als een onderzoeker 45 publicaties heeft die minstens 45 keer zijn aangehaald is haar of zijn H-index 45.

Op dergelijke indexen zijn universiteitsbestuurders en managers verzot. Ze tellen mee in de universiteitsrankings en zijn bruikbaar voor de selectie van onderzoekers voor hun labs. Maar op die indexen en rankings is ook veel kritiek. Ze zouden geen goede indicator zijn van kwaliteit en doelen op zich worden. Deze ‘indicatorlogica’ pakt vaak slecht uit voor de wetenschap, vindt Sarah de Rijcke, die als universitair hoofddocent bij het cwts onderzoek doet naar de invloed van die indicatoren.

Het gebruik van indicatoren is niet te voorkomen, stelt De Rijcke. Daarom is het volgens haar een kwestie van het juiste meten en die metingen op de juiste manier inzetten. Ze vindt het bijvoorbeeld geen goede ontwikkeling dat individuele prestaties zo centraal staan in evaluaties, terwijl kennisvergaring een collectief proces is. ‘Dat gaat terug tot Einstein en verder. Die individuele bewieroking van talent is hardnekkig.’

Vandaar dat De Rijcke en haar collega’s in 2015 tien principes presenteerden om de indicatoren te gebruiken zodat ze wél kwaliteit belonen en goed gedrag stimuleren: het Leiden Manifesto. Ze pleitten er onder meer voor cijfers alleen als hulpje te gebruiken bij beleid en selectie, niet als doorslaggevende factor. Ook zetten ze in op indicatoren aangepast aan de missie van het instituut of de onderzoeksgroep: iemand die fundamenteel, academisch onderzoek doet, heeft andere doelen dan iemand die maatschappelijke problemen probeert op te lossen.

Ze pleitten er ook voor om bij het gebruik van de H-index onderscheid te maken per vakgebied. Onderzoekers werkzaam in vakgebieden waarin minder gepubliceerd en geciteerd wordt, hebben gemiddeld een lagere H-index. En last but not least: onderzoekers, bestuurders en beleidsmakers moeten beseffen dat indicatoren niet alleen meten, maar ook gedrag sturen. Ze kunnen tot ongewenst gedrag leiden. Daarom moeten ze ook regelmatig aangepast worden.

De boodschap van De Rijcke vindt steeds meer weerklank bij de verschillende wetenschappelijke uitgevers, die inzien dat het ook hun verantwoordelijkheid is de beste wetenschap te stimuleren. In november nog vond er een meeting plaats in Leiden waar vertegenwoordigers van verschillende uitgevers zoals Springer Nature en Elsevier zich lieten informeren.

Wat Science in Transition-frontman Frank Miedema betreft kunnen we het best helemaal stoppen met indicatoren. Zelf was hij jarenlang ook vooral bezig carrière te maken, door publicaties in toptijdschriften te halen. Het verschil was volgens Miedema dat hij als aidsonderzoeker wel steeds werd geconfronteerd met echte problemen en patiënten. Zijn collega’s en hij hielden jaarlijks verhalen over hun onderzoek in De Rode Hoed voor deelnemers aan het Amsterdamse Hiv/Aids Cohort. ‘Zij vertelden over hun leven met hiv. Zo van: “Ik ben seropositief en mijn vriend ook, moeten wij condooms gebruiken?” Dat wisten we toen niet.’

Die lijn probeert Miedema als decaan in het UMC Utrecht voort te zetten. Sinds kort worden onderzoekers daar niet meer alleen beloond voor het aantal publicaties in zo hoog mogelijk aangeschreven tijdschriften. Impact staat centraal, en dat kan van alles zijn. Voor Miedema is het bouwen van een kunstnier, waar wetenschappelijk vaak op neergekeken wordt, net zo belangrijk als het leggen van de fundamenten voor het begrip van het ontstaan van kanker of dementie. En daar houdt het niet op. Minstens zo belangrijk als de uitkomst is het proces zelf. Hoe is je onderzoeksgroep verbonden met andere groepen, met patiëntenverenigingen, ggz -instellingen, enzovoort. Snap je wat je aan het oplossen bent? Hoe kom je aan je onderzoeksvragen?

Niet iedereen kan zich vinden in zijn visie, weet Miedema. ‘Mensen zijn bang dat ze te veel moeten gaan luisteren naar mensen van buiten de wetenschap. Dat het alleen nog maar draait om de economie en de toepassing op korte termijn. Dat geloof ik niet, je kunt net als bedrijven een strategie hebben voor de korte en de langere termijn. Beide zijn belangrijk.’Hij ziet dergelijke discussies als een achterhoedegevecht. De wetenschapskritiek van deze tijd laat zien dat er aan de manier waarop wetenschappers hun werk doen nog veel te verbeteren valt, en dat dat ook echt kan. ‘De tractie van Science in Transition en Open Science is op gang gekomen.’ Wat Miedema betreft hoeft niet elke wetenschapper zich bezig te houden met het systeem van de wetenschap en de relatie met de maatschappij. Als er maar genoeg mensen zijn die dat wél doen, en de rest bewust maken van hun blinde vlekken: zijn we nog wel met de echte zaken bezig? ‘Are we making a cure or a career?’


Dit stuk werd mede mogelijk gemaakt door Fonds 1877. De naam van de anonieme, jonge postdoc is bij de redactie bekend. De blogs die Jop de Vrieze over ‘de worstelende wetenschap’ schreef zijn hier na te lezen.