p-toets

	© h.hofstede (h.hofstede@hogeland.nl)
De p-toets

Het is weer zover: de buren zijn weer "gezellig" een potje Mens-Erger-Je-Niet aan 't spelen:

Hij: "Nou ja, zeg! Alwéér geen zes!!! En jij gooit stééds zessen!"
Zij: "Ach ja, je kunt het of je kunt het niet..."
Hij: "Maar dit is geen toeval meer!"
Zij: "Wat bedoel je daarmee, schatje?"
Hij: "Nou ja, gewoon; dit is niet meer normaal! Ik wil ook met die dobbelsteen gooien"
Zij: "Nou ja, zeg, je wilt toch niet beweren dat ik vals speel?"

Hij: "Geef mij die dobbelsteen, geef hier!"
Zij: "Afblijven, dat is mijn geluksdobbelsteen, je hebt hem mij zelf gegeven op onze zilveren bruiloft"
Hij: "Maar hij is vals vals vals VAAAAALS; hij gooit veel vaker zes!"
Zij: "NIETES"
Hij: "WELLES"
Zij: "NIETES"
Hij: ...

Ik sta te luisteren met mijn glas tegen de muur. Ze besluiten na lang geruzie om wetenschappelijk te bewijzen of de dobbelsteen nou vaker dan normaal 6 gooit of niet. Ze gaan de steen 300 keer gooien en het aantal zessen tellen. Als de steen zuiver is zal dat in de buurt van de 50 moeten uitkomen (dat is wat ZIJ beweert). Als HIJ gelijk heeft dan zal het aantal zessen groter dan 50 zijn.
Wiskundig gezien hebben we te maken met twee beweringen, die we Hypothese NUL (H₀) en Hypothese EEN (H₁) zullen noemen. ZIJ zegt dat de kans op een zes gelijk is aan ¹/₆ en HIJ zegt dat die kans groter is dan ¹/₆:

H₀: p = ¹/₆ (ZIJ)
H₁: p > ¹/₆ (HIJ)

Ze gooien 300 keer en het aantal zessen blijkt gelijk te zijn aan 57. En tja, dan begint het gekibbel weer:

HIJ: "Zie je wel! Méér dan 50 zessen!!"
ZIJ: "Ach man, zeur niet zo, 't is toch ongeveer 50?"
HIJ: "Nee, het is MEER"
ZIJ: "Maar dat is toeval, ook als de kans per keer precies ¹/₆ is, dan kan het best voorkomen dat er 57 zessen in 300 keer gooien komen. De kans op 57 zessen is binompdf(300, ¹/₆, 57) = 0,033 maar de kans op precies 50 zessen is ook slechts binompdf(300, ¹/₆, 50) = 0,062, en dat is ook niet erg groot, dus zo heb je bijna altijd wel wat te zeuren. 't Is gewoon toeval!

HIJ is even onder de indruk van dit wiskunde-geweld, en wij gaan intussen snel de zaak wat wiskundiger bekijken.

Zij heeft natuurlijk deels gelijk. Als zij zegt dat p = ¹/₆ dan beweert ze eigenlijk dat het aantal zessen binomiaal verdeeld is met n = 300 en p = ¹/₆, dus dat er een kanshistogram voor is te tekenen en dat ook 57 zessen gewoon kan voorkomen.
Maar ja, er zijn wel grenzen natuurlijk. Stel dat ze 300 keer 6 had gegooid. Dan kan dat volgens haar kansverdeling in theorie ook voorkomen natuurlijk, maar de kans daarop is slechts (¹/₆)³⁰⁰ = 0,0000000000000..... Er zal geen normaal mens haar dan gelijk geven. Maar hoe is het bij 100 zessen... of 80... of 60.... of 57.....??????
Ze moeten eigenlijk vooraf bepalen wanneer HIJ en wanneer ZIJ gelijk krijgt.

Als het aantal zessen heel veel groter is dan 50, dan zal HIJ gelijk krijgen. Als het aantal zessen redelijk in de buurt van 50 ligt dan zal ZIJ gelijk krijgen. Maar waar ligt de grens?

Zie het (schematische) kanshistogram hiernaast. Dat geldt voor het geval dat ZIJ gelijk heeft, dus dat de kans inderdaad ¹/₆ is.
Als straks de meting in het rode gebied valt krijgt HIJ gelijk en in het groene gebied krijgt ZIJ gelijk.
Maar waar moeten we G kiezen?

Laten we gaan kijken wat de kans is dat we met ons onderzoek een FOUTE conclusie trekken. Er kunnen twee dingen fout gaan:

Twee mogelijke fouten:

Fout 1. We geven Hem (H₁) gelijk terwijl Zij (H₀) het eigenlijk heeft.
Fout 2. We geven Haar (H₀) gelijk terwijl Hij (H₁) het eigenlijk heeft.

Stel dat we een G afgesproken hebben. Dan kunnen we de kans op fout 1 uitrekenen, kijk maar:

Hij krijgt gelijk: dat betekent dat de meting rechts van G gaat uitvallen.
Zij heeft gelijk: dat betekent dat het wél het getekende histogram is.
Kortom; de kans op fout 1 is precies het rode oppervlak in de figuur!!!! Deze kans heet de "Overschrijdingskans"

De kans op fout 2 is niet te berekenen!
Dat komt omdat HIJ niet zegt wat de kans op 6 dan wél is. Bij zijn bewering (p > ¹/₆) hoort niet één histogram; het zijn er oneindig veel. Daar valt niets aan te berekenen. Helaas.....

Mogelijke fout:
• H₁ krijgt gelijk terwijl H₀ gelijk heeft.
• H₀ wordt ten onrechte verworpen.
• De overschrijdingskans.

De drie hierboven zijn dus precies hetzelfde!

We kiezen nu van tevoren een waarde voor deze overschrijdingskans die we nog acceptabel vinden. Deze "kans op een foute conclusie" noemen we de onbetrouwbaarheidsdrempel of het significantieniveau en we gebruiken er de letter α voor. Meestal wordt gekozen voor α = 0,05 of α = 0,01.

Als we α kennen is de waarde van G te berekenen.
Neem bijvoorbeeld in het bovenstaande voorbeeld α = 0,05. Dan kun je in je GR invoeren Y1 = binomcdf(300, ¹/₆, X)
en dan kijk je met TABLE bij welke X de grens van 95% (0,95) wordt overschreden. Dan is het rode gebied immers gelijk aan 0,05. Dat geeft X = 61 (kans 0,9598). Dus bij 61 of meer keer zessen krijgt HIJ gelijk en bij 60 of minder zessen krijgt ZIJ gelijk. Bij deze huiselijke ruzie werd er 57 keer 6 gegooid dus krijgt ZIJ gelijk. Kennelijk is die 57 nog niet ver genoeg naast de verwachte 50. Het zit er nog dicht genoeg bij om haar gelijk te geven.

Twee manieren om te beslissen.

Hierboven berekende we de grenswaarde G door in de GR in te voeren Y1 = binomcdf(300, ¹/₆, X) en dan in de tabel te kijken bij welke X dat de 0,95 overschrijdt. Die X is de grenswaarde G en die lag in het voorbeeld tussen 60 en 61.
Daarna was de conclusie dat 57 links van de grenswaarde ligt, dus H0 wordt NIET verworpen.

Je had ook in een keer uit kunnen rekenen: binomcdf(300, ¹/₆, 57) = 0,876...
Omdat dat kleiner is dan 0,95 weet je dat de meting (57) links van G zal liggen, dus dat H₀ NIET verworpen zal worden.
Op deze manier heb je dat gedoe met die tabel niet nodig. Zonder dat je precies weet wat G nou is, weet je al wél aan welke kant van G jouw meting ligt, dus wat de conclusie zal zijn.

OPGAVEN

Mijn buurvrouw is nogal een opschepster en beweert altijd dat zij erg veel verstand van voetbal heeft.
Zo speelt zij elke week mee in de toto.
Daarvoor moet je van 12 voetbalwedstrijden de winnaar voorspellen (of voorspellen dat het gelijkspel gaat worden)Dat doe je door bij elk van die wedstrijden een kruisje in één van de drie vakjes "winst" "verlies" of "gelijkspel" voor het thuisspelende team te zetten.

Neem voor het gemak aan dat al die drie mogelijkheden even waarschijnlijk zijn.
Als mijn buurvrouw zegt dat zij verstand van voetbal heeft dan beweert zij dus eigenlijk dat de kans dat zij een uitslag goed voorpelt groter is dan ¹/₃.
Als mijn buurvrouw van de 12 wedstrijden er 6 goed voorspelt, mag zij dan met 95% betrouwbaarheid beweren dat zij inderdaad verstand van voetbal heeft?

Dit is de verdeling van de eerste 10000 cijfers van het getal e:

cijfer	0	1	2	3	4	5	6	7	8	9
aantal	974	989	1004	1008	982	992	1079	1008	996	968

Iemand beweert dat de verdeling van de cijfers niet helemaal willekeurig is, maar dat het cijfer 6 veel vaker voorkomt dan het geval zou zijn bij écht willekeurige getallen.
Onderzoek of hij gelijk heeft. Neem een significantieniveau van 5%.

Een tuinliefhebber beweert dat het om kalk in de grond te strooien voor het opkomen van de geplante bloembollen.
"Als je kalk strooit komen er meer bollen op dan zonder kalk" is zijn stellige bewering.
"Normaal zonder kalk kwamen bij mij 68% van de geplante bollen op.
Maar dit jaar heb ik kalk gestrooid en nu zijn er maar liefst 130 van de 180 bollen op".

Mag hij daaruit inderdaad met 95% betrouwbaarheid concluderen dat kalk strooien helpt om bloembollen te laten opkomen?

Een voetbaltrainster weet dat normaal gesproken in Nederland zo'n 8,2% van de jeugdspelers linksbenig is.
Maar de regio waar zij trainingen geeft blijken er van de 20 elftallen (met elk 15 spelers) maar liefst 4 elftallen te zijn met meer dan 2 linksbenige spelers.

Mag zij daaruit met 95% betrouwbaarheid concluderen dat linksbenigheid in deze regio vaker voorkomt?

Mijn wiskundeleraar hamert er altijd op dat je je huiswerk moet maken, omdat je anders geen voldoende op wiskunde gaat halen.
Hij heeft het afgelopen jaar van alle leerlingen regelmatig in al zijn klassen bijgehouden of de leerlingen hun huiswerk hadden gemaakt of niet.
Van de 84 leerlingen die regelmatig huiswerk maakten haalden er uiteindelijk 8 een onvoldoende.
Van de 46 leerlingen die haast nooit hun huiswerk maakten haalden er uiteindelijk 6 een onvoldoende.

Mag je daaruit concluderen dat het inderdaad helpt om een voldoende te halen als je je huiswerk maakt?