Dan zetten we een grootscheeps onderzoek op waarbij we 10000
mensen een jaar lang elke dag 20 glazen cola laten drinken.
Vervolgens kijken we na een poosje welke ziektes deze
cola-drinkers uit
ons onderzoek hebben.
Stel dat bekend is dat de kans op kanker gemiddeld 0,1% is (ik
heb geen idee maar de getallen doen er niet toe), dan kunnen we
een toets opstellen:
H0: de kans op kanker bij
cola-drinkers is gelijk aan de normale kans: p
= 0,001
H1: de kans op kanker bij cola-drinkers
is groter dan de normale kans : p >
0,001 |
Laten we een significantieniveau van 5% nemen (vrij
gebruikelijk voor dit soort toetsen).
Dan verwerpen we H0 als er meer dan G mensen kanker
kregen waarbij geldt: geldt P(X > G | n = 10000
, p = 0,001) < 0,05
Dat is vanaf 15 gevallen.
En nu maar hopen dat er 15 of meer mensen kanker zullen krijgen.
Ook al is de kans nog steeds 0,001 dan zou dat best kunnen
gebeuren natuurlijk. De kans op zo'n uitzonderlijk resultaat
is..... 5% uiteraard!
Dat betekent dat we in 5% van de onderzoeken "succes"
zullen hebben en Coca-Cola kunnen beschuldigen!
Maar wacht eens even..... als we nou gewoon nog 50 andere
verschrikkelijke ziektes testen in hetzelfde onderzoek. Bij elke
ziekte is de kans dat we Coca-Cola kunnen beschuldigen 5%.
Dan is de kans dat we bij minstens één van deze 50 ziektes
"succes" zullen hebben 1- P(geen succes) = 1
- 0,9550 = 0,92.
Kortom: de kans dat we Coca-Cola kunnen beschuldigen van
één of andere ziekte is ongeveer 92%.
Uiteraard presenteren we alleen de gegevens van deze ene ziekte
en verzwijgen we voor het gemak maar alle anderen.
De moraal:
|
Als je maar genoeg gevallen bekijkt komt er
vanzelf een keer een uitzondering voor. |
|
|