De tekentoets.

© h.hofstede (h.hofstede@hogeland.nl)

   
Heel vaak heb je (bijvoorbeeld in reclames) te maken met een VOOR-NA situatie. Bijvoorbeeld bij hoeveel mensen afvallen na gebruik van een bepaald dieet, of hoeveel je rimpels verminderen bij gebruik van een bepaald middel, of noem maar op.
   

   
In dat geval hebben we te maken met metingen aan dezelfde persoon of hetzelfde voorwerp. Wiskundig heten dat paarsgewijze metingen.
Stel bijvoorbeeld dat je een middel hebt gekocht waarvan de drogist je vertelt dat het je gewicht binnen een week vermindert, dan zou je om dat te testen dat middel aan een groep proefpersonen kunnen geven en dan hun gewichten VOOR en NA de week vergelijken. Daarbij wordt elke persoon alleen vergeleken met zichzelf.

In zo'n geval kun je gebruik maken van een tekentoets.
Zet de metingen die met elkaar vergeleken moeten worden onder elkaar, zoals voor de gewichten van zo'n groep van 15 proefpersonen hieronder is gedaan.
   
nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
VOOR 89.3 56.0 102.4 76.3 70.4 58.6 65.6 98.9 120.3 90.5 86.1 70.4 48.9 61.3 59.5
NA 85.2 57.6 103.4 75.7 69.2 55.0 64.4 99.2 116.3 87.6 88.3 69.2 45.3 58.5 59.2
   
Nu voegen we er een derde rij aan toe waar in staat of het gewicht is toegenomen (+) of afgenomen (-):
   
nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
VOOR 89.3 56.0 102.4 76.3 70.4 58.6 65.6 98.9 120.3 90.5 86.1 70.4 48.9 61.3 59.5
NA 85.2 57.6 103.4 75.7 69.2 55.0 64.4 99.2 116.3 87.6 88.3 69.2 45.3 58.5 59.2
verschil

-

+ + - - - - + - - + - - - -


In die laatste rij staat dus het teken van het verschil, vandaar de naam tekentoets.

En nou redeneren we als volgt:
Stel dat het middel niet helpt.....
Dan is het verschil tussen VOOR en NA volkomen willekeurig, dus zal het even vaak (+) als (-) zijn.
Dat betekent dat de kans op een (+) of een (-) verschil 50% is.
Daarom stellen we de volgende hypothese op:

   

H0: "er is géén verschil"  ⇒  p = 0,5

   
p is hier de kans op (+) of (-), dat maakt niet uit, laten we "succes" in dit geval een gewichtsvermindering (dus een (-)) noemen. Degene die beweert dat het middel wél helpt beweert dan  H1p > 0,5

Daarmee hebben we hier een p-toets met p = 0,5 van gemaakt. En die kennen we al!!!
In dit voorbeeld zijn er 11 successen van de 15, dus is de overschrijdingskans  1 - binomcdf(15, 0.5, 10) = 0,059
Bij α = 0,05 is dat groter dan α, dus mag H0 NIET worden verworpen, en moet de conclusie zijn: "er is geen verschil"

Nog vier opmerkingen maar liefst:
 

1.  Ceteris Paribus.
Dat betekent  "als het overige gelijk blijft". Je moet er voor betrouwbare VOOR-NA metingen wel voor zorgen dat er geen andere omstandigheden zijn die van invloed zijn. Dat zou in bovenstaand voorbeeld iets simpels kunnen zijn als het feit dat het net feestweek is waarin iedereen zich te barsten eet en drinkt. Maar ook iets subtielers als het feit dat mensen die weten dat ze aan een onderzoek meedoen misschien bewuster gaan eten en daardoor automatisch afvallen.
Daarom wordt vaak gebruik gemaakt van een zogenaamde controlegroep: een tweede groep mensen die ook denken dat ze meedoen, maar die niet het echte middel krijgen toegediend maar een placebo (een namaakmiddel dat niets doet).

   
2.  Gelijke uitkomsten.
Die zijn heel vervelend, want als dat voorkomt, dan kun je niet meer stellen dat p = 0,5 voor H0 (dat ging er van uit dat alleen "groter" of  "kleiner"  voorkomen, niet "gelijk"). Het beste is om nauwkeuriger te meten, dan komt het niet vaak voor dat twee waarden precies gelijk zijn. Mocht het toch zo zijn dat twee metingen gelijk worden (dat heten knopen) dan laten we die gewoon weg: doe alsof ze er niet zijn. Ik geef toe, het is wel een beetje struisvogelgedrag, want zulke knopen laat je weg terwijl ze juist de hypothese H0 erg sterk bevestigen!!
   
3.  Verdelingsvrij.
Een tekentoets is verdelingsvrij.  Dat betekent dat het niet uitmaakt hoe de getallen precies verdeeld zijn. Er hoeft niet te worden voldaan aan bijvoorbeeld een normale verdeling of zoiets. De eigenlijke verdeling doet er niet toe; we maken er immers zélf gewoon een binomiale verdeling van.

4.  Nadelen
Een groot nadeel zagen we al bij punt 2:  knopen laten we weg terwijl ze natuurlijk wel invloed (zouden moeten) hebben.
Een tweede nadeel is, dat alleen gekeken wordt naar het teken van het verschil, niet naar de grootte. Iemand die in bovenstaand voorbeeld 4 kg gewicht zou verliezen telt even zwaar (haha, grapje) mee als iemand die 0,1 kg zwaarder wordt!

   
   
  OPGAVEN
   
1. Een aantal consumenten werd in een supermarkt gevraagd twee koffiesoorten, koffie A en koffie B te proeven en er een rapportcijfer aan te geven. Dat gaf de volgende tabel:
       
 
klant 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
koffie A 4 8 6 7 7 9 4 5 6 6 7 5 8 3 6 7 7 8 4 6
koffie B 5 7 4 3 6 8 6 3 5 8 5 4 7 4 4 8 6 7 3 9
       
  Geeft deze tabel genoeg reden om bij een significantieniveau van 5% te stellen dat koffie A lekkerder wordt gevonden dan koffie B?
       
2. Aan 200 mensen wordt gevraagd wat ze lekkerder vinden: aardbeienjam of abrikozenjam.
Van hen vinden er 76 abrikozenjam lekkerder en 104 vinden aardbeienjam lekkerder. 20 hebben geen mening.

Onderzoek of er reden bestaat om aan te nemen dat aardbeienjam lekkerder wordt gevonden dan abrikozenjam. Neem een significantieniveau van 5%.
     

ja (0,022)

   
3. Van een aantal echtparen wordt gevraagd hoeveel kinderen de man graag zou willen hebben en hoeveel de vrouw. De gegevens staan in de volgende tabel.
       
 
echtpaar 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
man 0 3 2 5 4 0 1 0 3 7 3 2 3 5 4 2 2 2 4 4 6 1 1 2 1 4 5 2
vrouw 1 1 4 5 2 2 5 2 2 3 4 0 0 2 4 1 0 1 3 3 5 2 4 1 3 2 2 3
       
  Welke conclusie kun je trekken met een significantieniveau van 10%?
     

geen (0,163)

       
4. Een interessant onderzoek heeft bestudeerd of studenten in hun eerste jaar op de universiteit zwaarder worden of niet.  Men heeft bij een aantal studenten het gewicht aan het begin en aan het eind van het eerste jaar gemeten.
De resultaten staan in de volgende tabel (in ponden).
       
 
student 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
begin 133 152 169 156 178 220 145 138 218 140 148 98 142 170 109
eind 135 160 180 154 185 226 150 140 225 140 143 102 138 182 112
       
 
student 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
begin 121 144 106 182 122 110 130 165 158 106 160 122 146 112 145
eind 125 140 108 175 120 114 134 165 160 105 166 125 155 115 144
       
  Onderzoek of je uit deze gegevens mag concluderen dat de studenten in hun eerste jaar zwaarder worden.
Neem α = 0,05.
     

ja (0,018)

       
5. De mentor van een middelbare school klas wil onderzoeken of er een verschil is tussen de resultaten van zijn klas op een taaltoets en op een rekentoets.

De volgende scores werden op die toetsen gehaald (eerste score is de taaltoets, tweede score is de rekentoets)

(24, 18) (22, 19) (18, 19) (20, 24) (14, 16) (18, 15) (24, 22) (15, 16) (23, 17) (22, 23) (26, 30) (28, 26) (16, 18) (22, 20) (19, 18) (20, 20) (24, 22) (18, 16) (24, 21) (18, 16) (19, 19) (20, 26) (15, 16) (19, 18) (21, 25) (28, 26)(25, 23) (24, 24)

Wat zal zijn conclusie zijn met een significantieniveau van 5%?
       
       
6. Een studentenvereniging houdt een bierproefavond om voor eens en voor altijd te beslissen wat nou het lekkerste bier is:  Grolsch of Heineken. Van de 140 deelnemende studenten vinden er 66 Grolsch lekkerder, 49 Heineken, en de overige 25 studenten vinden dat het allemaal niets uitmaakt.
Mag je aan de hand van deze gegevens met een significantieniveau van 5% concluderen dat Grolsch lekkerder wordt gevonden dan Heineken?
     

nee (0,068)

       
7. In veel artikelen lees je dat het gebruik van koffie de hartslag verhoogt. Maar is dat direct zo, of pas op de lange termijn? Om dat te testen heeft men bij 20 proefpersonen de hartslag gemeten, en daarna nog eens, een half uur na het drinken van 3 koppen koffie.
Dat leverde de volgende tabel op:
       
 
persoon 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
hartslag voor 68 105 78 86 90 66 84 80 68 70 76 75 91 59 90 79 65 78 80 72
hartslag na 65 107 78 88 84 68 79 84 68 69 79 78 92 68 90 73 69 80 74 74
       
  Mag men hieruit concluderen dat het drinken van koffie inderdaad op de korte termijn de hartslag verhoogt?
Neem een significantieniveau van 5%
     

ja (0,048)

       
8. mix-opgave.

"Na mijn verbeterde trainingsprogramma zijn de tijden van Marianne Timmer op de 1500 meter normaal verdeeld met een gemiddelde van 2'01" (= 2 minuten en 1 seconde) en een standaarddeviatie van 2 seconden",  beweert coach Peter Mueller trots.
"Welnee, welnee," beweert Leen Pfrommer (de vorige coach van Timmer die door haar aan de kant is gezet). "Dat haalt ze niet, ze rijdt langzamer hoor!"
"Niet waar, 2'01", zeker weten"
"Opschepper"
"Kwakzalver"
"Wedje maken?...."
Ze laten Marianne 5 keer rijden en meten een gemiddelde tijd van  2'02".
"Zie je wel," roept Pfrommer triomfantelijk.
       
  a. Mag Leen inderdaad met 90% zekerheid aan de hand van deze 5 ritten concluderen dat Peter ongelijk heeft?
     

nee (0,1318)

  Als de bewering van Mueller klopt, dan is de kans dat Timmer een willekeurige rit onder de 2'01" zal rijden gelijk aan 50%. 
       
  b. Benader in dat geval de kans (4 decimalen) dat van de 60 ritten die onze Marianne rijdt er minstens 35 onder de 2'01" zullen zijn.
     
0,1225
  "En ook alle 500 meter rijders die van jou naar mij overstappen gaan gemiddeld harder rijden," beweert Peter.
"Welnee, het doet er allemaal niet toe," zegt Pfrommer.
"Welles, mijn trainingsprogramma's werpen wél vruchten af," bijt Mueller hem toe. "Kijk maar eens naar deze tabel met voor een aantal rijders de 500m-tijden bij jou, en de tijden bij mij:"
       
 
rijder 1 2 3 4 5 6 7 8 9
Pfrommer 39.04 38.74 40.01 39.27 39.48 38.74 40.05 40.23 38.45
Mueller 38.50 38.95 40.01 39.00 39.12 38.41 40.10 39.98 37.45
       
  c. Mag Mueller (met een onbetrouwbaarheidsdrempel van 10%) uit deze tabel concluderen dat zijn trainingsprogramma’s inderdaad helpen?
     

nee(0,1445)

  Voor het afsluitende ijsgala heeft Pfrommer een ploegje van 4 rijders geselecteerd die de
4 × 500m estafette zullen gaan rijden. De 500m-tijden van al deze vier rijders zijn toevallig normaal verdeeld met een gemiddelde van 39 seconden, en ook toevallig allemaal met dezelfde standaarddeviatie.
De kans dat deze ploeg de estafette onder de 2'35" zal rijden blijkt gelijk te zijn aan 14%. (neem aan dat het wisselen geen tijd kost of tijd oplevert).
       
  d. Bereken de standaarddeviatie van de 500m-tijden van elk van deze vier rijders.
     

0,46

       
9. Het CEVO (de examencommissie) vraagt zich af of de centrale examens door de leraren wel op dezelfde manier worden nagekeken, of dat misschien de ene leraar veel soepeler is dan de andere....
Daarom neemt men een test waarbij men twee wiskundeleraren dezelfde 20 examens laat nakijken.
Dat levert de volgende tabel op:
       
 
nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
leraar A 7.2 6.0 5.2 9.0 8.7 4.1 6.6 6.1 5.3 7.4 3.2 5.6 5.5 7.0 8.0 5.1 4.0 6.3 6.3 9.0
leraar B 7.3 6.1 5.4 8.7 8.8 4.1 7.1 6.2 5.6 7.6 3.0 5.4 5.8 7.1 7.2 5.3 3.9 6.3 6.5 9.2
       
  Onderzoek of men aan de hand van deze cijfers met een significantieniveau van 5% kan concluderen dat de leraren de toets hetzelfde nakijken.
       
10. examenvraagstuk VWO Wiskunde A, 1984

Een landbouwkundige wil het effect van een bemestingsmiddel op de groei van zonnebloemen onderzoeken met behulp van een tekentoets. Hij zaait 12 paren zonnebloemen, waarbij hij voor één zonnebloem van elk paar het bemestingsmiddel gebruikt, voor de andere niet.
Vier weken na het ontkiemen meet hij de lengte van alle zonnebloemen.
Resultaat:
       
 
Paar 1 2 3 4 5 6 7 8 9 10 11 12
Zonder bemesting 97 99 98 96 95 98 98 100 97 96 97 93
Met bemesting 102 97 100 99 99 103 101 97 102 98 98 101
       
  Geeft dit resultaat aanleiding om te veronderstellen dat het bemestingsmiddel een positief effect heeft op de groei in de eerste vier weken? Men neemt een significantieniveau van 2,5% aan.
       

© h.hofstede (h.hofstede@hogeland.nl)