De p-toets

© h.hofstede (h.hofstede@hogeland.nl)

Het is weer zover: de buren zijn weer "gezellig" een potje Mens-Erger-Je-Niet aan 't spelen:

Hij:  "Nou ja, zeg! Alwéér geen zes!!! En jij gooit stééds zessen!"
Zij:  "Ach ja, je kunt het of je kunt het niet..."
Hij: "Maar dit is geen toeval meer!"
Zij:  "Wat bedoel je daarmee, schatje?"
Hij:  "Nou ja, gewoon; dit is niet meer normaal! Ik wil ook met die dobbelsteen gooien"
Zij:  "Nou ja, zeg,  je wilt toch niet beweren dat ik vals speel?"

Hij:  "Geef mij die dobbelsteen, geef hier!"
Zij:  "Afblijven, dat is mijn geluksdobbelsteen, je hebt hem mij zelf gegeven op onze zilveren bruiloft"
Hij:  "Maar hij is vals vals vals VAAAAALS; hij gooit veel vaker zes!"
Zij:  "NIETES"
Hij:  "WELLES"
Zij:   "NIETES"
Hij:  ...
Ik sta te luisteren met mijn glas tegen de muur. Ze besluiten na lang geruzie om wetenschappelijk te bewijzen of de dobbelsteen nou vaker dan normaal 6 gooit of niet. Ze gaan de steen 300 keer gooien en het aantal zessen tellen. Als de steen zuiver is zal dat in de buurt van de 50 moeten uitkomen (dat is wat ZIJ beweert). Als HIJ gelijk heeft dan zal het aantal zessen groter dan 50 zijn.
Wiskundig gezien hebben we te maken met twee beweringen, die we Hypothese NUL (H0) en Hypothese EEN (H1) zullen noemen. ZIJ zegt dat de kans op een zes gelijk is aan 1/6  en HIJ zegt dat die kans groter is dan 1/6:

H0p = 1/6   (ZIJ)
H1p > 1/6   (HIJ)

Ze gooien 300 keer en het aantal zessen blijkt gelijk te zijn aan 57. En tja, dan begint het gekibbel weer:
HIJ:  "Zie je wel! Méér dan 50 zessen!!"
ZIJ:  "Ach man, zeur niet zo, 't is toch ongeveer 50?"
HIJ:  "Nee, het is MEER"
ZIJ:  "Maar dat is toeval, ook als de kans per keer precies 1/6 is, dan kan het best voorkomen dat er 57 zessen in 300 keer gooien komen. De kans op 57 zessen is binompdf(300, 1/6, 57) = 0,033  maar de kans op precies 50 zessen is ook slechts binompdf(300, 1/6, 50) = 0,062, en dat is ook niet erg groot, dus zo heb je bijna altijd wel wat te zeuren. 't Is gewoon toeval!

HIJ is even onder de indruk van dit wiskunde-geweld, en wij gaan intussen snel de zaak wat wiskundiger bekijken.
Zij heeft natuurlijk deels gelijk. Als zij zegt dat p = 1/6 dan beweert ze eigenlijk dat het aantal zessen binomiaal verdeeld is met n = 300 en p = 1/6, dus dat er een kanshistogram voor is te tekenen en dat ook 57 zessen gewoon kan voorkomen.
Maar ja, er zijn wel grenzen natuurlijk. Stel dat ze 300 keer 6 had gegooid. Dan kan dat volgens haar kansverdeling in theorie ook voorkomen natuurlijk, maar de kans daarop is slechts  (1/6)300 = 0,0000000000000.....  Er zal geen normaal mens haar dan gelijk geven. Maar hoe is het bij 100 zessen... of 80... of 60.... of 57.....??????
Ze moeten eigenlijk vooraf bepalen wanneer HIJ en wanneer ZIJ gelijk krijgt. 

Als het aantal zessen heel veel groter is dan 50, dan zal HIJ gelijk krijgen. Als het aantal zessen redelijk in de buurt van 50 ligt dan zal ZIJ gelijk krijgen. Maar waar ligt de grens?
Zie het (schematische) kanshistogram hiernaast. Dat geldt voor het geval dat ZIJ gelijk heeft, dus dat de kans inderdaad 1/6 is.
Als straks de meting in het rode gebied valt krijgt HIJ gelijk en in het groene gebied krijgt ZIJ gelijk.
Maar waar moeten we G kiezen?

Laten we gaan kijken wat de kans is dat we met ons onderzoek een FOUTE conclusie trekken. Er kunnen twee dingen fout gaan:
Twee mogelijke fouten:
Fout 1.  We geven Hem (H1) gelijk terwijl Zij (H0) het eigenlijk heeft.
Fout 2.  We geven Haar (H0) gelijk terwijl Hij (H1) het eigenlijk heeft.
Stel dat we een G afgesproken hebben. Dan kunnen we de kans op fout 1 uitrekenen, kijk maar:

Hij krijgt gelijk:  dat betekent dat de meting rechts van G gaat uitvallen.
Zij heeft gelijk: dat betekent dat het wél het getekende histogram is.
Kortom;  de kans op fout 1 is precies het rode oppervlak in de figuur!!!! Deze kans heet de "Overschrijdingskans"

De kans op fout 2 is niet te berekenen!
Dat komt omdat HIJ niet zegt wat de kans op 6 dan wél is. Bij zijn bewering (p > 1/6) hoort niet één histogram; het zijn er oneindig veel. Daar valt niets aan te berekenen. Helaas.....
Mogelijke fout:
• H1 krijgt gelijk terwijl H0 gelijk heeft.
• H0 wordt ten onrechte verworpen.
• De overschrijdingskans.

De drie hierboven zijn dus precies hetzelfde!

We kiezen nu van tevoren een waarde voor deze overschrijdingskans die we nog acceptabel vinden.  Deze "kans op een foute conclusie" noemen we de onbetrouwbaarheidsdrempel  of het significantieniveau  en we gebruiken er de letter α voor. Meestal wordt gekozen voor α = 0,05 of α = 0,01.

Als we α kennen is de waarde van G te berekenen.
Neem bijvoorbeeld in het bovenstaande voorbeeld α = 0,05.  Dan kun je in je GR invoeren Y1 =  binomcdf(300, 1/6, X)
en dan kijk je met TABLE bij welke X de grens van 95% (0,95) wordt overschreden. Dan is het rode gebied immers gelijk aan 0,05. Dat geeft  X = 61 (kans 0,9598). Dus bij 61 of meer keer zessen krijgt HIJ gelijk en bij 60 of minder zessen krijgt ZIJ gelijk. Bij deze huiselijke ruzie werd er 57 keer 6 gegooid dus krijgt ZIJ gelijk. Kennelijk is die 57 nog niet ver genoeg naast de verwachte 50. Het zit er nog dicht genoeg bij om haar gelijk te geven.

   
Twee manieren om te beslissen.
   
Hierboven berekende we de grenswaarde G door in de GR in te voeren  Y1 = binomcdf(300, 1/6, X) en dan in de tabel te kijken bij welke X dat de 0,95 overschrijdt. Die X is de grenswaarde G en die lag in het voorbeeld tussen 60 en 61.
Daarna was de conclusie dat 57 links van de grenswaarde ligt, dus H0 wordt NIET verworpen.

Je had ook in een keer uit kunnen rekenen:  binomcdf(300, 1/6, 57) = 0,876...
Omdat dat kleiner is dan 0,95 weet je dat de meting (57)  links van G zal liggen, dus dat H0 NIET verworpen zal worden.
Op deze manier heb je dat gedoe met die tabel niet nodig. Zonder dat je precies weet wat G nou is, weet je al wél aan welke kant van G jouw meting ligt, dus wat de conclusie zal zijn.
   
   
  OPGAVEN
1. Mijn neef Jacob beweert dat hij helderziend is en gedachten kan lezen. Gelukkig ken ik een goede test daarvoor: de Zener-kaarten. Dat zijn 5 kaarten met een symbool erop:
Jacob heeft een grote stapel met deze kaarten (evenveel van elke soort). Ik schud de stapel, pak een kaart en moet daar van hem heel hard aan denken. Hij zit tegenover mij, kijkt mij doordringend aan en probeert het symbool van mijn kaart te raden. Dan schud ik weer en doe het zelfde nog eens. En dan nog eens...
Na 100 zulke kaarten heeft hij 27 keer het goede symbool geraden. "YES"  juicht hij;  "Veel meer dan de verwachte 20 keer!!!"
Kunnen we aan de hand van deze gegevens inderdaad concluderen dat de  kans dat Jacob goed raadt groter is dan 20%? Neem een significantieniveau van 5%.
 

NEE; 0.056

2. De fabrikant van AMSTEL bier houdt een reclame-actie. Onder de doppen van de flesjes zit een letter uit de zin "HET BESTE BIER IS AMSTEL BIER" . Wie de hele zin heeft krijgt een gratis krat bier. De fabrikant beweert dat elk van de 10  letters even vaak voorkomen. Na 62 flesjes te hebben geopend heb ik echter nog maar twee B's. Ik stuur een boze brief met de klacht dat B veel zeldzamer is dan de rest.
Mag ik dat aan de hand van deze 62 flesjes inderdaad concluderen?  Neem een significantieniveau van 5%.
 

JA:  0,045

3. Crème Bioforce A. Vogel is een homeopathisch middel tegen huidirritatie. De crème bevat geneeskrachtige planten die van oudsher bij huidaandoeningen worden gebruikt, zoals valkruid, goudsbloem, toverhazelaar, salie en heelkruid.
Het probleem is echter, dat de meeste huidirritatie ook vanzelf wel weer verdwijnt. In 30% van de gevallen geneest huidirritatie spontaan.
Een traditionele huisarts beweert dat de crème helemaal niet helpt, want hij heeft de crème aan 40 patiënten met huidirritatie gegeven, en daarvan geneesden er 15. Dat is amper meer dan de verwachte 30%, want dat zijn 12 patiënten.
Mag de huisarts aan de hand van deze gegevens inderdaad concluderen dat deze crème niet helpt? Neem een significantieniveau van 1%.
 

JA:  0,193

4. Dit is de verdeling van de eerste 10000 cijfers van het getal e:
cijfer 0 1 2 3 4 5 6 7 8 9
aantal 974 989 1004 1008 982 992 1079 1008 996 968

Iemand beweert dat de verdeling van de cijfers niet helemaal willekeurig is, maar dat het cijfer 6 veel vaker voorkomt dan het geval zou zijn bij écht willekeurige getallen.
Onderzoek of hij gelijk heeft. Neem een significantieniveau van 5%.

 

JA:  0.0048

5. Ik ben wiskundeleraar en had vorig jaar een klas van 25 leerlingen, die ik drie uur in de week wiskundeles gaf. Dat ging zo 35 weken per jaar door.
Natuurlijk hield ik goed alle absenten bij, en over het hele vorige jaar heb ik genoteerd dat er 12 keer méér dan drie leerlingen afwezig waren.

Ik lees in een rapport over ziekte en spijbelen dat de kans dat een leerling afwezig is in een les gelijk is aan 6%

Mag ik naar aanleiding van mijn gegevens van het vorige jaar concluderen dat die kans groter is dan
de genoemde 6%?  Neem een significantieniveau van 5%.

 

NEE; 0.075

     
6. Een oude volkswijsheid zegt dat veel sinaasappels eten helpt om verkoudheid te voorkomen. We besluiten dat te gaan testen, door een groep van 500 mensen veel sinaasappels te laten eten en een andere groep van 500 mensen helemaal geen sinaasappels. Het blijkt dat in de testperiode van de sinaasappeleters 131 mensen verkouden worden, en van de niet-sinaasappeleters 122 mensen.
Mag je daaruit met een significantieniveau van 5% concluderen dat sinaasappels eten de kans op verkouden worden inderdaad verkleint?

NEE; 0.149

     
7. Een aanhanger van D'66 beweert dat 60% van de Nederlanders vóór een gekozen burgemeester is. Zijn vrouw beweert dat dat aantal veel lager ligt. Een steekproef onder 50 mensen levert op dat daarvan 22 mensen vóór een gekozen burgemeester zijn.
Wie van beiden krijgt gelijk bij een significantieniveau van 1%?
 

man: 0,016

     
8. De monnik Gregor Mendel kruiste in de vorige eeuw verschillende plantensoorten met elkaar om een inzicht te krijgen in de overerving van verschillende eigenschappen. Hij ontdekte bijvoorbeeld dat een bepaalde soort in rode en witte variant voorkwam, waarbij de rode kleur dominant was en de witte reccessief. Dat betekent dat een exemplaar met twee rode genen (RR, Mendel noemde het trouwens factoren) of met een rood en een wit gen (Rw)een rode bloem kreeg, en alleen een bloem met twee witte genen (ww) wordt wit.
  Wat gebeurt er dan als je een plant ww kruist met een plant RR?
In het tabelletje hiernaast zie je dat alle nakomelingen Rw zijn, en dus een rode bloem hebben.

Maar het wordt interessanter als je de volgende generatie bekijkt. Dan zijn dus beide ouders Rw en dat geeft het onderste tabelletje hiernaast.
1 w w
R Rw Rw
R Rw Rw
 
Daarin is duidelijk te zien dat van de nakomelingen 75% een rode bloem zal hebben (RR, Rw en wR) en 25% een witte bloem (ww).

Een bioloog twijfelt aan deze theorie en gaat wat experimenteren. Hij kruist een aantal planten met elkaar en vindt in de tweede generatie van de 86 planten er 28 witte bloemen hadden.
2 R w
R RR Rw
w wR ww
     
  a. Mag de bioloog op grond van deze metingen concluderen dat het aantal witte bloemen in de tweede generatie groter is dan 25%? Neem een significantieniveau van 5%.  
     

NEE; 0.0704

  b. Hoe zal de verhouding van rode en witte bloemen in de derde generatie zijn?
     

3 : 1

       
9. In een elektronicazaak staat een grote bak met LED's (dat zijn van die kleine lampjes). Ze zijn erg goedkoop, maar er staat een bord boven met:
 

Sterk Afgeprijsd!!
Maar 40% is defect.
Waag een gokje!!!

       
  Een doe-het-zelver heeft 10 zulke LEDs nodig en besluit voor de zekerheid om er 15 te kopen.
       
  a. Bereken de kans dat hij minstens 10 goede LEDs heeft.  
     

0,4032

  Een boze klant denkt dat de winkelier de zaak bedriegt, want dat er in werkelijkheid 70% van de LEDs defect is. Hij onderzoekt willekeurig 60 LEDs. Volgens de winkelier zullen gemiddeld daarvan 36 LEDs goed zijn, volgens de boze klant slechts 18. Het gemiddelde daarvan is 27, dus ze besluiten dat de klant gelijk krijgt bij 27 of minder goede LEDs en de winkelier bij 28 of meer goede LEDs.
       
  b. Hoe groot is de kans dat de winkelier ten onrechte gelijk krijgt?
     

0,00477

  c. Hoe groot is de kans dat de klant ten onrechte gelijk krijgt?  
     

0,01328

  d. Natuurlijk kunnen ze ook een andere grenswaarde G kiezen. Stel dat ze ervoor kiezen dat de klant gelijk krijgt bij G of minder goede LEDs en de winkelier bij meer dan G goede LEDs.
Hoe moeten ze G dan kiezen zodat de antwoorden op de vragen b) en c) zo weinig mogelijk van elkaar verschillen?
     

G = 26

       
10. Als een bepaalde besmettelijke ziekte teveel voorkomt dan dreigt er een epidemie te ontstaan. De Inspectie van de Volksgezondheid heeft bepaald dat er een algeheel bevolkingsonderzoek moet worden uitgevoerd zodra 4% of meer van de bevolking aan de ziekte lijdt. Degenen die aan de ziekte lijden kunnen dan worden behandeld.
       
  a. Bij een onderzoek van 2000 mensen blijken er 71 aan de ziekte te lijden.
Rechtvaardigt dit resultaat met een significantieniveau van 10% het nalaten van een bevolkingsonderzoek?
       
  b. Men tracht voor zo'n onderzoek een test te ontwerpen die goedkoop en snel is. De test moet minstens 85% van de lijders aan de ziekte als zodanig herkennen.
Bij een bepaalde test bleken 58 van de 71 personen met de ziekte ook inderdaad als lijder aan de ziekte herkend te worden.
Is het resultaat voldoende om met een significantieniveau van 15% te concluderen dat de test niet aan de voorwaarde voldoet?
       
       
11. De fabrikant van afwasmiddel Dreft beweert dat minstens 40% van de gezinnen in Nederland Dreft gebruikt.
Maar concurrent  Klok beweert dat het minder is.  In een test wordt aan 100 gezinnen gevraagd welk afwasmiddel ze gebruiken.
       
  a. Hoeveel gezinnen moeten Dreft gebruiken zodat de fabrikant van Dreft gelijk krijgt? Neem een onbetrouwbaarheidsdrempel van 5%.
       
   b. Het blijkt uiteindelijk dat 34 gezinnen in het onderzoek Dreft gebruiken.
Bij welk significantieniveau krijgt Klok dan gelijk?
       
12. examenvraagstuk VWO, 1983
       
  Een fabrikant besluit een nieuw merk wasmiddel op de markt te brengen.
Hij biedt een zeer groot aantal pakken ter verkoop aan.
In 70% van dit aantal pakken wasmiddel is per pak precies één bon en in de overige pakken geen bon ingesloten.
Het publiek wordt door advertenties uitgenodigd aan een prijsvraag mee te doen.
Bij het inzenden van de oplossing van deze prijsvraag moeten vijf bonnen worden meegezonden.
       
  a. Bereken in vier decimalen nauwkeurig de kans dat een gebruiker in het achtste pak dat hij gekocht heeft zijn vijfde bon aantreft.
       
  b. Iemand heeft de prijsvraag opgelost en wil de oplossing inzenden. Daarom koopt hij in één keer een aantal pakken wasmiddel.
Hoeveel pakken moet hij tenminste kopen opdat de kans dat hij tenminste vijf bonnen aantreft, groter is dan 99%?
       
  c. Een consumentenorganisatie meent dat het aantal pakken met een bon minder is dan 70%.
Zij besluit tot een toets waarbij een steekproef van 50 pakken wordt onderzocht.
Het kritieke gebied van de toets wordt zo gekozen dat de kans dat de consumentenorganisatie ten onrechte gelijk krijgt kleiner is dan 3%.
Hoeveel pakken zonder bon moeten er tenminste in de steekproef zitten opdat de consumentenorganisatie gelijk krijgt?
       

© h.hofstede (h.hofstede@hogeland.nl)