Reken op de dominee

Wie wil weten of hij een werkzaam medicijn heeft ontwikkeld of een nieuw deeltje ontdekt, gebruikt een statistische test. Maar sommige statistici aarzelen over de vraag hoe ze daaruit conclusies moeten trekken....

HET LIJKT ZO eenvoudig. Hoe test je of een nieuw medicijn of een behandeling werkt? Door dat uit te proberen. Daartoe verzamel je een groep patiënten met de te bestrijden aandoening en deelt die stiekem in tweeën. De ene helft krijgt het middel, de andere een neppil. Laat een deskundige - liefst een die niet weet wie wát krijgt - lange tijd bekijken hoe het de patiënten vergaat.

Als het goed is, zal in de analyse van zo'n trial achteraf blijken dat het de patiënten die het nieuwe medicijn kregen, beter is vergaan dan de controlegroep die een placebo slikte.

Maar wat is dat precies: beter? En, nog belangrijker, kan het positieve resultaat niet gewoon toeval zijn, een gunstige speling van het lot?

In de medische sector, maar ook in alle andere empirische wetenschappen, is er de statistiek om dergelijke kwesties te beslissen. Talloze statistische handboeken, tegenwoordig ook in de vorm van kant-en-klare software, geven een heel precies recept voor het trekken van conclusies uit een test. Is de kans dat de uitkomst puur toeval is, kleiner dan 5 procent, dan heet die uitkomst significant. Dan werkt het medicijn volgens de meeste onderzoekers beter dan een placebo, dan is het gevonden bosje piekjes in een deeltjesversneller aanwijzing voor een echt deeltje, dan is er een verband tussen geslacht en intelligentie, enzovoorts.

Maar vanwaar die zogeheten P-waarde van 5 procent? De Engelse wiskundige en journalist dr. Robert Matthews, van de Aston University in Birmingham, is er een beetje cynisch over. 'Nergens om', zegt hij. 'Het is een conventie, die wel redelijk klinkt: 5 procent. Maar waarom niet 1 procent, of nog minder? Er zijn medicijnen die volgens de standaard-tests werkzaam zijn, en die daarna toch nauwelijks iets blijken uit te halen. Of erger.'

Hij hamert al jaren op de onvermijdelijke problemen van de klassieke statistische toetsen, rond de Tweede Wereldoorlog ingevoerd door de Britse wiskundige R. A. Fischer. 'Statistische toetsing is voor veel auteurs geen kritische controle meer, maar een soort bewijs van goed gedrag. Ik denk dat ze er zichzelf tekort mee doen.'

Begin dit jaar stond in het vooraanstaande British Medical Journal (27 januari) een opmerkelijk artikel waarin die kwestie uitgebreid werd besproken. Conclusie: significante resultaten volgens de klassieke 5-procentstoets garanderen niet dat een behandeling werkt. Misschien is 0,001 dan beter. Maar, aldus de auteurs van de Universiteit van Bristol, 'resultaten moeten feitelijk niet worden gerapporteerd als significant of niet-significant. Die stelligheid doet de medische research geen goed.'

Wat, zegt de Leidse psychologe dr. Fenna Poletiek, welhaast vloeken in de kerk is. 'Er is geen enkel serieus wetenschappelijk tijdschrift, ook BMJ niet, dat een artikel accepteert waarin je de statistische significantie van je resultaten niet hebt aangetoond. Dat is het eerste waar de redacties naar kijken.'

In wezen gaat het hier om een manier van praten onder wetenschappers, zegt Poletiek, die onlangs een boek publiceerde over hypothese-toetsing, zowel wetenschappelijk als alledaags. 'De enige vraag is hoe je je conclusies geloofwaardig presenteert aan vakgenoten. Daarvoor is lang geleden een procedure ontwikkeld, die inmiddels tot een ritueel is geworden. Een eigenaardig ritueel. Waarom zou je bijvoorbeeld een nulhypothese verwerpen, waarin doorgaans toch niemand gelooft?'

Diep onder de aanvaringen tussen de statistici steekt een wetenschapsfilosofisch probleem, aldus de pysychologe. 'Formeel zegt de P-waarde alleen hoe groot de kans is dat een halsstarrige criticus gelijk heeft als hij volhoudt dat je niks gevonden hebt. Al is die kans klein, het zegt niet dat je gelijk hebt.'

Wiskundige Matthews is al jaren een onvermoeibaar voorvechter van een alternatieve methode voor het beoordelen van empirische gegevens. Die gaat, aardig genoeg, terug op de technieken van de Britse dominee en wiskundige Thomas Bayes (1702-1761), die in 1764 postuum werden gepubliceerd. Bayes dacht diep na over zogeheten voorwaardelijke kansen: hoe veranderen nieuwe empirische gegevens ons statistisch inzicht? Hij ontwikkelde een wiskundige formule, waarin dat proces steeds ondubbelzinnig kan worden uitgedrukt.

Een aantrekkelijk idee, vindt ook Poletiek: 'Dat theorema van Bayes is wiskundig bijna triviaal. Maar zijn opvatting over wat kansen zijn, is een heel andere dan we nu gewend zijn. Hij heeft het over subjectieve schattingen dat een hypothese waar is en wat metingen daaraan veranderen.'

De meeste moderne statistici gruwen, geheel in lijn met Fischer, van dat subjectivisme. Een kans, zeggen ze streng, is niets meer of minder dan het percentage dat je vindt, als je maar genoeg metingen doet. Zo wordt ook de P-waarde opgevat: het aantal keren dat proefpersonen toevallig beter zijn geworden, en niet dankzij het medicijn.

Volgens Matthews doet die starre frequentistische benadering van het kansbegrip echter geen recht aan de werkelijke gang van zaken in de empirische wetenschap. 'Je probeert als researcher niet een al dan niet denkbeeldige tegenstander te overtuigen, je probeert in te zien of jouw inzicht realiteitswaarde heeft.'

En dat, voegt hij toe, is nog maar het minste probleem. In grote medische trials speelt voortdurend de gewetensvraag of je het patiënten wel mag aandoen om ze een placebo te geven, als je allang vermoedt dat ze baat kunnen hebben bij het nieuwe medicijn. Matthews: 'Daar speelt tegenin dat het stoppen van een trial de klassieke statistiek meteen naar de haaien helpt. Medici zeggen terecht: dan zijn er dus zéker mensen voor niks gestorven.'

In zo'n geval is Bayes, zo laat hij in een recent artikel in een vakblad over statistische besliskunde zien, zeker beter. Met de achttiende-eeuwse technieken is onderweg steeds precies uit te rekenen of de waarnemingen de hypothese voldoende versterken om vertrouwen te hebben. Matthews: 'Medici houden niet van statistiek, dat compliceert het debat een beetje. Maar ze hebben echt alleen maar te winnen.'

Meer over