ColumnIonica Smeets

Ik gokte onmiddellijk op Simpsons paradox – een van mijn favoriete statistische verschijnselen

null Beeld

‘Het schoolexamengemiddelde was in 2020 een stukje hoger dan de jaren daarvoor. Bij de vakken met (normaal gesproken) een centraal examen is er echter geen stijging, en bij de overige vakken zelfs een daling. Hoe kan dat?’ Dat vroeg Gerard Koolstra, redacteur van WiskundE-brief, een fijne nieuwsbrief voor wiskundedocenten.

Zijn vraag ging over de cijfers voor de schoolexamens voor het vwo. Niet gehinderd door enige kennis over wat er speelt bij die examens, gokte ik onmiddellijk op Simpsons paradox – een van mijn favoriete statistische verschijnselen. Hierbij keert een trend in verschillende losse groepen om zodra je die groepen bij elkaar optelt.

In lezingen heb ik deze paradox vaak laten zien en geregeld droegen mensen na afloop voorbeelden hiervan aan die ze zelf waren tegengekomen. Zo vertelde een theaterdirecteur dat hij een jaar hard had gewerkt aan het verhogen van de bezetting in de twee zalen van zijn theater (het mag duidelijk zijn dat dit zich voor 2020 afspeelde). Elke keer dat hij bij een voorstelling was, had hij het gevoel dat hij goed bezig was, hij zag minder lege stoelen. Maar aan het eind van het jaar ontdekte hij tot zijn verbijstering dat de gemiddelde bezetting van zijn theater was gedaald.

Gelukkig kwam hij op het idee om per zaal te kijken en toen bleek zowel in de grote als kleine zaal de bezetting gestegen. Hoppa: Simpsons paradox! In allebei de zalen steeg de bezetting, maar bij elkaar opgeteld daalde de bezetting voor het hele theater. De verklaring bleek dat er in dat jaar ook iets veranderd was in de verhouding tussen de programmering van de twee zalen. Waar eerst de meerderheid van de voorstellingen in de (relatief) goed bezette kleine zaal waren, speelde dat jaar juist de meerderheid van de voorstellingen in de gemiddeld wat slechter bezette grote zaal. Daardoor was de gemiddelde bezetting dat jaar gedaald, terwijl die in elk van de twee zalen steeg.

Dus toen Gerard Koolstra liet zien dat het gemiddelde schoolexamencijfer op het vwo steeg van 6,74 in 2019 naar 6,81 in 2020, terwijl het gemiddelde cijfer bij vakken zonder centraal examen in die periode daalde van 7,25 naar 7,21 en het gemiddelde cijfer bij vakken met centraal eindexamen stabiel bleef op 6,68, dacht ik hieraan terug. Twee groepen die achteruitgaan of gelijkblijven terwijl het totaal van die twee groepen vooruitgaat: Simpsons paradox!

Intussen stelden docenten die wél iets van schoolexamens weten allerlei intelligente vragen. Kwam dit doordat de centrale examens in 2020 niet door konden gaan? Waren er meer herkansingen gedaan? Zaten er fouten in de data van de schoolexamens?

Helaas voor hen bleek het juiste antwoord (u raadt het al): Simpsons paradox. Er had een grote verschuiving plaatsgevonden waarbij eerst 11 procent van de vakken geen centraal examen had en nu 25 procent. En aangezien bij die vakken zonder centraal examen gemiddeld een hoger eindcijfer hoort, schoot het gemiddelde omhoog. Reken maar na: bij 11 procent een 7,25 en 89 procent een 6,68 kom je op 6,74 en bij 25 procent een 7,21 en 75 procent een 6,68 kom je op 6,81.

Overigens bleek dit vooral een administratieve verschuiving, die vakken en cijfers waren er al, maar ze werden eerst op een andere manier geregistreerd. En terwijl ik zelfgenoegzaam deze column zit te schrijven, moeten die arme docenten bedenken wat dit nu écht betekent en hoe ze hun leerlingen dit jaar in vredesnaam door alle examens heenslepen.

Rekenvoorbeeld van Simpsons paradox, van de hand van professor Smeets. Beeld Ionica Smeets
Rekenvoorbeeld van Simpsons paradox, van de hand van professor Smeets.Beeld Ionica Smeets
Meer over