© h.hofstede (h.hofstede@hogeland.nl)

Doe de normaal-test!
 

We weten nu dat de normale verdeling ongeveer zo'n klokvorm geeft, maar er zijn zovéél histogrammen die ongeveer zo'n vorm hebben. Hoe kun je nou onderzoeken of ze wel precies aan die moeilijke formule van Gauss voldoen?  Neem de volgende drie histogrammen:
 

 
Welk van de drie geeft een echte klokvorm?
Het zijn allemaal  wel ongeveer klokvormen. De vraag is eigenlijk of de kromming van de  klokvorm past bij een normale verdeling. Er is gelukkig een eenvoudige methode om dat te onderzoeken. Daarvoor moet je wel weten wat een cumulatief frequentiepolygoon is. Als je dat bent vergeten neem dan eerst deze les weer door. Onthoud de volgende zaken:
 
1.  De frequenties moeten in procenten.
2.  De stippen staan bij het rechter-klasseneinde.
 
Als je van een normale verdeling een cumulatief frequentiepolygoon tekent dan krijg je een soort S-vormige kromme (zie hiernaast). Daarmee gaan we een gedachte-experiment uitvoeren........
Teken die S-kromme op een stuk rubber.
Spijker het midden horizontaal vast op een plank, en rek het rubber daarna ietsje uit. Omhoog en omlaag.
Spijker het daarna ook ietsje boven en onder het midden vast, en rek de uiteinden nog wat verder uit.
Ga zo alsmaar door: spijker vast en rek uit, spijker vast en rek uit, spijker vast en rek uit....
Als je dat een beetje handig en nauwkeurig doet dan kun je er voor zorgen dat de S-kromme verandert in een rechte lijn!
Natuurlijk heeft jouw rubberpapier dan wel een beetje rare y-as gekregen.

 

Er is papier dat zó gemaakt is dat cumulatieve normale verdelingen op dat papier rechte lijnen opleveren. Dat papier heet heel toepasselijk normaal-waarschijnlijkheids-papier (meestal zeg je gewoon normaal-papier) HIER kun je een velletje bewonderen. Let op de vreemde verdeling van de y-as: Vanaf het midden naar boven en naar beneden toe is de schaal steeds verder "uitgerekt".
Laten we de drie histogrammen van het begin van deze les meteen gaan testen.
Maak de gegevens cumulatief en in procenten. Dat geeft de volgende drie tabellen:
rechter
klasseneinde
cumulatieve
frequentie
6
7
8
9
10
11
12
7
16
31
50
69
84
93
 
rechter
klasseneinde
cumulatieve
frequentie
6
7
8
9
10
11
12
2
12
30
50
70
88
98
 
rechter
klasseneinde
cumulatieve
frequentie
6
7
8
9
10
11
12
2
5
15
50
85
95
98
         
En dat geeft op normaalpapier de volgende drie grafieken:

Zo te zien hoort het eerste histogram bij een "echte"  klokvorm. Dat geeft namelijk op normaalpapier het mooist een rechte lijn. In de andere twee zit een soort van kromming.

Er valt nog iets op......

De klasse >12 konden we niet tekenen omdat immers de rechtergrens onbekend is. Maar dat geeft niet. Ook al was die grens wél bekend, dan konden we het punt nóg niet tekenen. Dat komt omdat 100% niet op de y-as van ons normaalpapier te vinden is! In theorie loopt zo'n klokvorm namelijk aan beide kanten oneindig ver door. De x-as is een horizontale asymptoot. Dus liggen 0% en 100% oneindig ver omlaag en omhoog. Dat papier is steeds meer en meer uitgerekt.
 
 
100% en 0% zijn op normaalpapier niet te vinden.
 
Gemiddelde en Standaardafwijking.
Als je zo'n histogram eenmaal op normaalpapier hebt getekend kun je uit die grafiek het gemiddelde en de standaardafwijking vrij eenvoudig aflezen.
Het gemiddelde dat kun je zelf wel verzinnen hoop ik; dat zit uiteraard bij 50% want omdat de klokvorm symmetrisch is, is het gemiddelde gelijk aan de mediaan en dus zit 50% van de metingen daar onder.
De standaarddeviatie kun je vinden als je de figuur hiernaast weer even voor ogen haalt. Tussen μ + σ en  μ - σ zat 68% van de meetwaarden. Dat betekent dat onder m - σ  nog 16% zit, en boven  m + σ ook.

Kortom:  μ - σ kun je vinden bij 16% en  μ + σ bij 100 - 16 = 84%.
σ  is dan uiteraard de horizontale afstand tussen μ en μ + σ .
Dat zie je samengevat in de figuur hiernaast.

Uit die figuur blijkt ook meteen dat σ  in feite de helling van de lijn bepaalt: hoe groter σ, des te kleiner de helling. Twee normale verdeling met dezelfde standaarddeviatie zullen op normaalpapier evenwijdige grafieken opleveren. Dat kun je handig gebruiken bij opgaven als deze:

voorbeeld:
Van een normaal verdeelde grootheid is 10% kleiner dan 40 en de standaarddeviatie is 12. Bepaal met normaalpapier hoeveel procent groter is dan 60.
 

Teken op normaalpapier een lijn met een willekeurig gemiddelde en met standaarddeviatie 12.
Bijvoorbeeld een lijn door (40, 50%) en (52, 84%).
Teken vervolgens door het punt (40, 10%) een tweede lijn evenwijdig aan de eerste. Deze tweede lijn heeft dan ook standaarddeviatie 12. Lees op deze lijn bij 60 af hoeveel procent kleiner dan 60 is. Dan weet je ook hoeveel procent groter dan 60 is. (Doe het zelf maar, er komt ongeveer 65% uit).
   
 
 
  OPGAVEN
   
1. Onderzoek of de volgende tabellen een normale verdeling beschrijven.
         
 
meting <10 10-20 20-30 30-40 40-50 50-60 60-70 70-80
frequentie 11 61 77 116 109 55 44 31
         
 
meting <112 12-24 24-36 36-48 48-60 69-72 72-84 84-96
frequentie 195 390 741 1170 1794 1404 1014 702
         
2. De volgende tabel beschrijft een normale verdeling.
         
 
meting 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 55-60
frequentie (%) 2,5 3,9 7,3 11,3 14,9 16,5 15,4 12,1 8,9 4,5 2,1
         
  Bereken van deze verdeling het gemiddelde en de standaardafwijking. Doe dat op twee manieren:
       
  a. Met de functie STAT-CALC van je rekenmachine.
       
  b. Met normaal-waarschijnlijkheidspapier.
         
3. Het gewicht van baby's bij hun geboorte is in Nederland normaal verdeeld.
4% van de baby's is lichter dan 2500 gram en 23% is zwaarder dan 3500 gram
Bepaal het gemiddelde en de standaardafwijking van deze gewichten.
   
4. Iemand houdt het aantal stappen dat hij op een dag zet bij met een stappenteller.
Hij komt er achter dat dat aantal normaal verdeeld is met een standaardafwijking van 2600 stappen
15% van de dagen blijkt hij meer dan 10000 stappen te zetten.
Hoeveel procent van de dagen zal hij dan minder dan 6000 stappen zetten?
Onderzoek dat met behulp van normaal-waarschijnlijkheidspapier.
   
5. Ten tijde van de corona-epidemie, in 2020,  controleerden de 300 rioolwaterzuiveringsinstallaties (RWZI's)elke week het aantal corona-virusdeeltjes in het rioolwater.
Dat aantal deeltjes  (in miljarden per 100000 inwoners) mag niet te hoog worden, want dat wijst op een nieuwe uitbraak van corona.
In een bepaalde week gaven de metingen een rechte lijn op normaal-waarschijnlijkheidspapier door  (500, 11)  en  (720, 97). Op de x-as stond dus het aantal coronavirusdeeltjes per 100000 inwoners.
         
  a. Teken die lijn en geef met deze figuur een schatting van het aantal RWZI's dat tussen de 650 en 750   coronavirusdeeltjes per 100000 inwoners gaf.
         
  De standaardafwijking van de metingen van de RWZI's bleek elke keer ongeveer  80 te zijn.
Men wil vanwege de volksgezondheid dat hoogstens 4% van de RWZI's een waarde van hoger dan 700 geeft.
         
  b. Bereken de grootste waarde van μ waarvoor dit nog het geval is.
         

© h.hofstede (h.hofstede@hogeland.nl)