Hoe meet je de kwaliteit van onderwijs?

De scheve score van Pisa

De positie die een land inneemt op internationale ranglijsten wordt gemakkelijk gezien als een rapportcijfer voor het nationale onderwijssysteem. Maar omdat rankings slechts een fractie van de werkelijkheid tonen, moeten we ze niet klakkeloos geloven.

Medium 5

Om te beginnen een toetsvraag. Stel, u wilt een salade aanmaken. Dit is het recept voor 100 milliliter dressing: 60 milliliter olijfolie, 30 milliliter azijn en 10 milliliter sojasaus. U heeft 150 milliliter dressing nodig. Hoeveel olie gaat daar dan in? Als u het juiste antwoord geeft, heel goed. Zo niet, geen zorgen. Er hangt geen beoordeling van af. Dat lag anders voor de tienduizenden vijftienjarigen in meer dan zestig landen die in 2012 deze vraag voorgelegd kregen als onderdeel van het Programme for International Student Assessment (pisa), uitgevoerd door rijke-landendenktank oeso. Hun antwoord was mede bepalend voor de positie die hun land inneemt op de internationale ranglijst die op basis van het pisa-onderzoek wordt gemaakt. De ranking van 2012 was goed nieuws voor Sjanghai, de nummer 1. Minder blij waren ze in Peru, dat helemaal onderaan bungelde. Nederland eindigde op plaats 10.

Dit soort ranglijsten zijn in het onderwijs inmiddels net zo gewoon als boeken, schoolborden en lange vakanties. Vanaf de basisschool tot aan de universiteit, het onderwijs is een systeem waarin prestaties voortdurend onderling vergeleken worden. In de driejaarlijkse pisa-onderzoeken laat de oeso een arsenaal van statistisch wapentuig los op de lees- en rekenprestaties van leerlingen om zo te kunnen achterhalen welk land de slimste jeugd heeft. De ranglijst is een maatstaf voor het zelfvertrouwen van landen en geeft een idee van hoe een nationaal onderwijssysteem het doet in de concurrentiestrijd met de rest. Het is een voorbeeld van wat Hanz-Dieter Meyer en Aaron Benavot in hun boek PISA, Power and Policy de mondiale audit explosion noemen: de wens om alles waar de politiek over gaat te meten, te classificeren en in te delen in hapklare overzichten.

De ranglijstjesmanie past naadloos in de manier waarop we tegenwoordig graag naar de wereld kijken: in termen van winnaars en verliezers. Een wezenskenmerk van globalisering is nerveus over je schouder kijken om te zien of anderen je niet op de hielen zitten. In het Westen zit de angst overvleugeld te worden door wat eerst ‘ontwikkelingslanden’ waren er diep in. In beleidsrapporten, krantenartikelen en Kamerdebatten klinken met regelmaat waarschuwingen dat het Westen zijn voorsprong op Aziatische tijgers en booming bric-landen dreigt te verliezen. Neem de visie van de Wetenschappelijke Raad voor het Regeringsbeleid, die in het geruchtmakende rapport Naar een lerende economie alarm sloeg over het vermogen van Nederland om zijn welvaart in de toekomst veilig te stellen: ‘De periode dat het Westen het centrum van de mondiale economische groei vormde, lijkt blijvend ten einde. Tegenover de westerse economieën die nu in zwaar weer verkeren, staat een groep opkomende economieën die al geruime tijd bezig is met een opmars.’

Wie de onheilsprofetieën over een wegkwijnend Westen onder de loep neemt, constateert dat ze vaak verband houden met scores op de onderwijsindexen. Zo baseerde de wrr haar conclusies deels op de pisa-onderzoeken uit 2009 waarin Nederland op plaats 6 stond als het ging om wiskunde en op plaats 7 bij zowel taal als natuurwetenschappen. Daarmee is Nederland een ‘subtopper’, oordeelt de wrr en komt het onderwijs hier ‘niet in aanmerking voor het predikaat “excellent”’. Nog zorgelijker was volgens de wrr dat ‘de beste Nederlandse leerlingen in geen enkel onderzocht vak tot de internationale top-tien behoren’. Twee jaar eerder luidde ook het Centraal Planbureau de noodklok. Niveau onderwijs daalt was de titel van een rapport waarin onder meer de pisa-scores werden besproken. Het Planbureau maakte zich vooral zorgen omdat Nederland in 2003 nog op de derde plek stond in de wiskundeonderzoeken.

Op basis van de alarmkreten kwam toenmalig minister van Onderwijs Marja van Bijsterveldt met haar Actieplan Beter Presteren. De exameneisen voor wiskunde, Nederlands en Engels moesten omhoog en er moest een verplichte rekentoets komen. Van Bijsterveldt vond het zorgelijk dat Nederland verder verwijderd raakte van een plek in wereldwijde top-vijf. Het toont de invloed van de ranglijsten. Een matige score en de politiek komt in beweging. De huidige premier van Noorwegen, Erna Solberg, beloofde tijdens haar verkiezingscampagne ‘meer pisa-punten’. Voor Michael Gove, de Britse staatssecretaris van Onderwijs, waren de resultaten van pisa 2012 (26ste in wiskunde, 23ste in lezen en 21ste in natuurwetenschappen) een belangrijk argument om het onderwijs in zijn land op de schop te nemen. Voor Nederland lieten de pisa-cijfers van 2012 een lichte daling zien. Staatssecretaris van Onderwijs Sander Dekker was weliswaar blij dat we nog steeds bij de Europese top hoorden, maar maande ‘scherp te blijven letten op de opkomende economieën’. ‘Het feit dat deze landen er structureel in slagen significant beter te presteren dan andere landen houdt ons op z’n minst een spiegel voor: verbetering van prestaties en hierdoor stijging van het welvaartspeil ís mogelijk’, aldus Dekker.

De termen waarmee over pisa wordt gesproken zijn veelzeggend. Het gaat om ‘presteren’, ‘excelleren’ en ‘tot de top behoren’. En dat alles doet Nederland onvoldoende in vergelijking met de concurrenten uit het Oosten. Althans, als we de ranglijstjes moeten geloven. En dat is precies waar de twijfel zit.

Dit is de pisa-top-tien met bijbehorende score van het wiskundeonderzoek dat in 2012 werd gehouden: 1. Sjanghai (613) 2. Singapore (573) 3. Hongkong (561) 4. Taipei (560) 5. Korea (554) 6. Macao (538) 7. Japan (536) 8. Liechtenstein (535) 9. Zwitserland (531) 10. Nederland (523).

Op het oog is het een keurig overzicht. Alles komt erin terug: het succes van Azië, de Nederlandse status als ‘subtopper’ die zich niet met de bovenste vijf kan meten. De scores, voor alle duidelijkheid, komen niet uit de lucht vallen. De eerdere edities van het pisa-onderzoek werden geleverd met een achtergrondstudie van bijna vierhonderd pagina’s waarin de rekenkundige methodes die het uiteindelijke cijfer opleveren uit de doeken worden gedaan. Voor het onderzoek van 2012 is een dergelijk rapport (nog) niet beschikbaar, maar zelfs met die toelichting is de vraag: wat zeggen dit soort lijsten precies?

De oeso zelf is weinig bescheiden als het gaat om de zeggingskracht van pisa. ‘Zijn leerlingen toegerust voor toekomstige uitdagingen? Kunnen ze effectief analyseren, redeneren en communiceren? Kunnen ze een leven lang blijven leren? pisa beantwoordt deze vragen en meer’, zo kondigt de denktank aan op haar website. Ook over het nut van onderwijsranglijstjes lijkt weinig twijfel te bestaan. ‘In een mondiale economie wordt succes niet langer bepaald door nationale standaarden, maar in vergelijking met de onderwijssystemen die het best presteren en het snelst vooruitgang boeken’, staat er in het voorwoord van het pisa 2012-rapport.

‘Het beste wat we kunnen zeggen over de PISA-ranglijsten is dat ze waardeloos zijn’

Bij het Cito, dat verantwoordelijk is voor de uitvoering van de pisa-testen in Nederland, zijn ze voorzichtiger. Dat Nederland op plaats 10 staat in het onderzoek van 2012 betekent in feite niet zo veel, zo valt te lezen in de Cito-rapportage bij de cijfers. De twaalf punten verschil met nummer 8, Liechtenstein, zijn statistisch gezien niet significant. Anders gezegd: dat verschil kan ook puur toevallig tot stand gekomen zijn, bijvoorbeeld omdat er dat jaar relatief veel sterke leerlingen in de onderzoekspopulatie van Liechtenstein zaten.

Hetzelfde geldt voor de landen die Nederland direct achter zich laat op de lijst. Hier zijn de nummers 11 tot en met 20 op de pisa-lijst: 11. Estland (521) 12. Finland (519) 13. Canada (518) 14. Polen (518) 15. België (515) 16. Duitsland (514) 17. Vietnam (511) 18. Oostenrijk (506) 19. Australië (504) 20. Ierland (501).

Zijn de vijftienjarigen in, zeg, België en Finland minder goed in wiskunde dan die bij ons? Het enige juiste antwoord luidt: geen idee. Pas bij de score van de nummer 18, Oostenrijk, kun je volgens het Cito zeggen dat ons voordeel is toe te schrijven aan de werkelijke resultaten van de test. Kortom, Nederland had ook zeven plaatsen lager of twee plaatsen hoger kunnen staan, zonder dat daar een conclusie aan te verbinden valt over onze positie.

Wel vindt het Cito het ‘opvallend’ dat ‘de voorhoede wordt gevormd door Aziatische deelnemers’. Maar er is nog iets raars aan de pisa-ranglijsten. Vier van de plaatsen in de top-tien worden ingenomen door in feite hetzelfde land. Sjanghai, Taipei, Hongkong, Macao: het is allemaal China. Nu zijn Hongkong en Macao autonome regio’s, dus is het nog verdedigbaar dat ze een aparte vermelding krijgen. Maar Sjanghai en Taipei? Je hoeft geen sinoloog te zijn om te weten dat die twee niet representatief zijn voor heel China. Het bnp per hoofd van de bevolking in Sjanghai is dubbel zo groot als in de rest van het land, en meer dan tachtig procent van de scholieren daar stroomt door naar de universiteit. Gemiddeld is dat in China nog geen kwart. De oeso gaat ermee akkoord dat China zijn elitekorps naar de pisa-testcentra stuurt, terwijl de rest van de wereld een representatieve steekproef van vijftienjarigen afvaardigt. Je kunt je indenken waarom China blij is met deze voorkeursregeling: voor de ranglijstjes is het zeer gunstig. Als je de Chinese vermeldingen zou samenvoegen, en dat is de bedoeling voor 2015, dan zou dat voor Nederland zo drie plaatsen kunnen schelen.

Ook bij het scoreverloop door de jaren heen zijn serieuze kanttekeningen te plaatsen. De Nederlandse wiskundescores in de afgelopen jaren zien er als volgt uit. 2003: 538 (3de plek), 2006: 531 (3de plek), 2009: 526 (6de plek), 2012: 523 (10de plek). Het is deze steeds lagere notering die het Centraal Planbureau aanzette tot zijn ongeruste rapporten over het dalende niveau van het onderwijs in Nederland. In 2003 en 2006 deden slechts twee Chinese steden mee, tegenover vier in 2009. Bovendien zou je verwachten dat de scores gebaseerd zijn op enigszins vergelijkbare testen door de jaren heen. Maar pisa richt zich bij elke ronde op een ander onderwerp, te kiezen uit wiskunde, leesvaardigheid en kennis van de natuurwetenschappen. Alleen in 2003 en 2012 was wiskunde het hoofdonderwerp. Bij de tussenliggende edities hadden slechts een paar toetsvragen betrekking op wiskunde en niet iedere leerling kreeg die voorgeschoteld. Zo constateerde Svend Kreiner, hoogleraar statistiek aan de Universiteit van Kopenhagen, dat bij de toets van 2006 (toen natuurwetenschappen het hoofdonderwerp waren) slechts tien procent van alle pisa-deelnemers een volledige test had gemaakt. Slechts de helft van de deelnemers had wiskundevragen beantwoord. Toch presenteerde de oeso dat jaar volledige ranglijsten op alle onderwerpen.

De verklaring voor hoe dit kan is complex en bevindt zich diep in het binnenwerk van de statistische machine van de oeso. Om toch iedere drie jaar tot een vergelijking te komen op alle onderwerpen tussen alle landen berekent de oeso welke antwoorden waarschijnlijk zouden zijn gegeven als iedere leerling elk jaar een volledige test op ieder onderwerp zou hebben gemaakt. Daarvoor wordt een statistische methode gebruikt, het zogeheten Rasch-model. De oeso probeert dit niet te verbergen, maar je moet wel met een lampje zoeken naar de disclaimer. In de honderden pagina’s bijlagen van pisa 2009 valt te lezen: ‘Het is heel belangrijk om te erkennen dat de waarschijnlijke waarden geen testscores zijn en dus ook niet zo behandeld moeten worden.’ Dat is een serieuze waarschuwing, maar het is de vraag of de lijstjesfetisjisten die kennen.

Volgens Kreiner, die een Rasch-expert is, hanteert de oeso een instrument zonder de gebruiksaanwijzing te kennen. Dit soort trucs werkt volgens hem alleen als de tests in ieder land hetzelfde zijn. En dat zijn ze zeker niet. De vragen worden aangepast per land, al naar gelang het onderwijssysteem en de nationale taal. Bovendien worden er achteraf vragen uit de analyse gehouden als bleek dat ze in bepaalde landen niet goed werkten. ‘Het beste wat we kunnen zeggen over de pisa-ranglijsten is dat ze waardeloos zijn’, zei Kreiner daarom in een interview met het Engelse onderwijstijdschrift TES. In de wetenschappelijke tijdschriften woedt inmiddels een papieren oorlog tussen critici als Kreiner en de statistici van de oeso.

Medium 4

Los van het getouwtrek over de rekenmethoden achter de pisa-scores zijn er flink wat vragen te stellen. Worden hier geen appels met peren vergeleken? De pisa-index omvat alles, van leerlingen op Chinese stampscholen tot Montessori-kinderen die zelf hun tempo bepalen. En waarom alleen vijftienjarigen meten? Misschien maken in sommige landen scholieren wel juist grote sprongen daarvoor of daarna. Vanwaar die nadruk op wiskunde, leesvaardigheid en natuurwetenschap? Het spreken van talen, kennis van cultuur en geografie kunnen ook prima op het lijstje skills for the global economy. En hoezo is de mondiale economie de maatstaf? Het overgrote deel van de jongeren zoekt nog steeds een baan binnen het eigen land.

De discussie zou beter kunnen gaan over ‘wat vinden we goed onderwijs’ in plaats van over ‘op welke plaats staan we’

Precies omdat cijfers lang niet alles zeggen, proberen verschillende experts de discussie te verleggen naar het verhaal achter de ranglijsten. Lex Borghans is een van hen. Hij is hoogleraar arbeidseconomie en sociaal beleid aan de Universiteit van Maastricht en doet veel onderzoek naar hoe vaardigheden van leerlingen worden gemeten. Hij waarschuwt ervoor om al te veel conclusies te verbinden aan de ranglijstjes die gebaseerd zijn op testscores. ‘Vergelijk het met bloeddruk meten’, zegt Borghans in een gesprek. ‘Het is nuttig om te weten wat je bloeddruk is, maar het getal op zichzelf zegt niets. Het cijfer is niet je gezondheid. Je moet het in de context plaatsen. Het is een input voor het denkproces.’

Dat er achter de ranglijst een gecompliceerde werkelijkheid schuilgaat, blijkt uit onderzoek dat Borghans deed samen met een Maastrichtse collega-econoom. Onlangs publiceerden ze het artikel The Leaning Tower of Pisa, waaruit bleek hoe veranderlijk een ranglijst is. Wat Borghans en zijn collega deden was de pisa-test uit 2006 vergelijken met informatie over hoe leerlingen scoren gedurende het verloop van de test, iets wat geldt als een goede indicator voor hoe gemotiveerd leerlingen zijn om de test tot een goed einde te brengen. Plotseling leunde de toren van Pisa de andere kant op. Als motivatie uit de vergelijking werd weggelaten, steeg Japan plotseling van een zevende plaats naar de nummer 1-positie. De topscorer van dat jaar, Finland, moest in het nieuwe lijstje genoegen nemen met plaats 6. Nederland steeg een plaatsje van 5 naar 4.

‘Later in de toets maken leerlingen dezelfde vragen slechter, maar de mate waarin dat gebeurt verschilt enorm per land’, licht Borghans zijn onderzoek toe in een gesprek. ‘Duitsers zijn heel constant, die zijn – heel vooroordeelbevestigend – gedisciplineerd. Bij andere landen gaat het eerst goed, maar loopt het snel af. Zijn leerlingen in die landen slechter in wiskunde, of kunnen ze zich minder goed concentreren?’ Ook het belang dat landen hechten aan de test speelt mee, meent de hoogleraar: ‘In Nederland zeggen docenten: jullie mogen deze test doen. In Italië zeggen ze: de eer van jullie land staat op het spel. Uiteindelijk zegt zo’n score niet veel meer dan hoe goed een land is in het maken van een pisa-test.’

De woorden van Borghans zijn illustratief voor de kritiek op de lijstjescultuur. Rankings zijn een samenraapsel van heterogene indicatoren die door een statistische molen worden gehaald waarna er een cijfertje uit rolt dat zou aangeven hoe goed een land scoort ten opzichte van andere landen. Voeg een criterium toe, laat er een weg of verander het gewicht dat je eraan hangt, en de lijst staat op z’n kop. De oeso, die vooral geïnteresseerd is in cognitieve vaardigheden, maakt van ‘motivatie’ geen apart aandachtspunt. Terwijl er goede redenen kunnen zijn om daar wél naar te kijken. Misschien zijn de scores op de pisa-test niet zozeer een weergave van het vermogen van leerlingen om een sommetje op te lossen, maar eerder een maatstaf voor de dikte van hun zitvlees. Tot die conclusie kwam ook de Onderwijsinspectie in haar jaarverslag 2012-2013. Met de vaardigheden en kennis van Nederlandse leerlingen is niet zo veel mis, het ontbreekt vooral aan inzet en motivatie. Dat is zorgelijk, maar vergt een heel andere aanpassing van het onderwijssysteem dan de oeso op basis van pisa-onderzoeken voorschrijft.

Dat de plaats van een land in de mondiale onderwijswedloop maar net afhangt van wat je meet, is goed te zien aan The Learning Curve die de Engelse uitgeverij Pearson heeft samengesteld. In deze databank kun je zelf onderwijsranglijsten maken door te kiezen uit de tientallen maatstaven die in omloop zijn. Het toont in één keer waarom je voorzichtig moet zijn met rankings. Wie een lijst van beste onderwijslanden wil maken, moet in The Learning Curve allereerst een vraag beantwoorden voor zichzelf: de allerbeste gemeten naar wat? Als het antwoord luidt: ‘Wiskundescores’, dan kun je kiezen uit verschillende meetmethoden, waaronder die van pisa, onder verschillende leeftijdsgroepen. De resultaten lopen nogal uiteen.

Zo is er bijvoorbeeld de Trends in International Mathematics and Science Study. In deze test onder tienjarigen eindigen Groot-Brittannië en Rusland, kneusjes op de pisa-lijsten, ineens op plek 7 en 8, nog voor Nederland. Of misschien zijn er ouders die kleine klassen erg belangrijk vinden. Dan heeft Zweden met gemiddeld 9,27 leerlingen per docent op de basisschool de beste papieren. In het voortgezet onderwijs is dat Portugal, met gemiddeld 7,35 middelbare scholieren per docent. In Nederland is dat cijfer 15,3 Dit zijn natuurlijk gedachtenexperimenten, en ook over alle maatstaven die in The Learning Curve zijn opgenomen kun je twisten, maar helder is: er bestaat niet één definitie van ‘de beste’.

De discussie zou kortom beter kunnen gaan over ‘wat vinden we goed onderwijs’ in plaats van over ‘op welke plaats staan we’. Zo bekeken werpen de pisa-lijsten licht op slechts een smalle uitsnede van het onderwijs. Omdat de oeso tientallen onderwijssystemen uit evenzoveel culturen met elkaar wil vergelijken, moeten de onderzoekers op zoek naar een gemene deler. En hoe meer deelnemers er zijn, hoe algemener het wordt. Om het speelveld zo gelijk mogelijk te houden, worden bij de vragen alle referenties aan lokale onderwerpen en actuele gebeurtenissen bij voorbaat geschrapt. De pisa-test is daarmee een cultureel neutrale mal waar landen in worden gepropt die wat betreft economie en samenleving niet méér verschillend van elkaar zouden kunnen zijn.

Die wens om een cultureel gesteriliseerd meetinstrument te hebben, verklaart ook waarom vakken als geschiedenis en filosofie niet meedoen: veel verschillende interpretaties, moeilijk te kwantificeren. Laat staan dat er gekeken wordt naar ‘zachte waarden’ als empathie, nieuwsgierigheid, maatschappelijke betrokkenheid – dingen die hopelijk ook onderdeel zijn van wat kinderen leren op school. Uiteindelijk beperkt pisa zich tot wat in de rekenkundige modellen te vatten is. Daarmee kom je een eind in de richting van het meten van ‘vaardigheden voor de economie van de 21ste eeuw’ die steeds meer door technologie gedreven wordt. Maar vanuit die hoogst abstracte pisa-score is het nog een hele stap naar een eindoordeel over een nationaal onderwijssysteem.

Dit blindstaren op de cijfertjes en lijstjes voelt akelig bekend. Inderdaad zit hier een parallel met de ontwikkeling van de mondiale economie tot aan de grote implosie van 2008. Die werd gedreven door een financieel stelsel waarin de uitslag van de rekensom ook de maat der dingen was. Kennis over hoe de rekenkundige machine precies in elkaar zit was het monopolie van een kleine groep experts. Iedereen daarbuiten moest het doen met het verhaal dat daarop werd geplakt: de economie groeide, iedereen werd rijker. De pisa-rankings, gestart in 2000, zijn afspiegelingen van dezelfde technocratische misvatting: het idee dat een wispelturige realiteit zich laat vangen in abstracte cijfers. De afloop van het verhaal is bekend. Het economisch kaartenhuis zakte in elkaar, we bleken minder rijk dan gedacht en de discussie over wat de cijfers nu precies zeggen brak los. Het geloof in onderwijsranglijstjes lijkt voorlopig ongeschonden, maar de vraag is hoe lang dat zo blijft.


Met medewerking van Reinier Bijman.

Beeld: (1) Uta Eisenreich, Network, Teamwork, 2002. Rood is: welke drie kinderen nodig je uit voor je verjaardag? (2) Uta Eisenreich, Network, Teamwork, 2002. Wit is: wie ken je het minst goed? (Uta Eisenreich).