© h.hofstede (h.hofstede@hogeland.nl)

De Centrale Limietstelling.
Het was de wiskundige Carl Friedrich Gauss die inzag dat heel veel frequentieverdelingen gelijk zijn.
En  niet zomaar ongeveer gelijk; nee hij ontdekte dat die figuren PRECIES gelijk waren!!!  Hij ontwikkelde zelfs een formule voor die figuren.

Gauss ontdekte deze formule op 17-jarige (!!!) leeftijd. Deze ontdekking is zo belangrijk voor de statistiek geworden, dat Gauss er in Duitsland zelfs het 10-mark biljet mee haalde. Samen met zijn normale verdeling!
Wiskundigen noemen deze figuur en deze kansverdeling de Normale Verdeling.  Natuurkundigen hebben het vaak over de Gauss-kromme.

Die ontdekking van Gauss heet de Centrale Limiet Stelling:

 
Als je een heleboel willekeurige dingen, die onafhankelijk van elkaar zijn en allemaal hun eigen gemiddelde en standaarddeviatie hebben, bij elkaar optelt, dan wordt het resultaat een normale verdeling.
 
In de verdieping hiernaast kun je meer vinden over de achtergrond hiervan.
   
Waarom is de normale verdeling eigenlijk zo belangrijk?
   
Omdat de normale verdeling elke keer ontstaat als een groot aantal willekeurige factoren wordt opgeteld komt hij erg vaak voor. Immers, bijna alles wat wij meten is gevolg van een groot aantal factoren; gewicht, lengte, IQ, temperatuur, behaalde proefwerkcijfers, meetfouten, noem maar op. 
Eigenschappen van de normale verdeling.
   
De normale verdeling heeft een aantal handige en belangrijke eigenschappen:
   

 

Hij wordt volledig bepaald door twee getallen:  het gemiddelde μ en de standaardafwijking σ.
Dat kun je zien aan die moeilijke formule van Gauss.
Het gemiddelde μ vind je "natuurlijk" in het midden. De standaarddeviatie σ bepaalt hoe breed de klokvorm wordt. Om precies te zijn is het de horizontale afstand vanaf het midden naar de buigpunten van de figuur. Dat zijn de punten waar de grafiek van "hol" overgaat naar "bol".
 

  Dus als je m verandert dan schuift de klokvorm in zijn geheel naar links of naar rechts en als je σ verandert, dan wordt de klokvorm breder of smaller maar blijft het midden op zijn plaats.
     

 

De totale oppervlakte onder de normale verdeling is 1.
Bedenk dat daar eigenlijk heel veel kleine staafjes van een histogram onder de klokvorm staan. De totale oppervlakte van een histogram is gelijk aan de totale frequentie, en als je op de y-as procenten zet komt daar 100% uit. "Alles samen is 100%".
     

 

De klokvorm is symmetrisch.
Je kunt hem spiegelen in de lijn x = μ. Dat is natuurlijk nogal logisch als je je bedenkt dat hij gevolg is van heel veel willekeurige factoren. Als die echt willekeurig zijn zullen ze even vaak een bijdrage kleiner dan μ leveren als een bijdrage groter dan μ.
Van deze verdeling zijn het gemiddelde en de mediaan en de modus alle drie aan elkaar gelijk.
     
Vuistregels van de normale verdeling
       
Hier zie je nog een keer de normale verdeling met de twee getallen die hem bepalen:
       

       
Bij een werkelijk statistisch onderzoek is het geen vloeiende kromme maar staat hier eigenlijk een histogram met allemaal kleine staafjes. Hoe meer hoe beter. In deze les zal ik dat wel steeds tekenen als vloeiende kromme (dat is minder werk)

De totale oppervlakte onder deze normale verdeling is 1  (of 100%).

Stel dat je een onderzoek hebt gedaan naar  het gewicht van pasgeboren baby's en je hebt gevonden dat dat normaal verdeeld is met een gemiddelde van 3500 gram en een standaardafwijking van 210 gram.
Dan hoort daar dus zo'n normale verdeling bij:
       

       
Stel nu dat je graag wilt weten hoeveel pasgeboren baby's tussen de 3400 en 3800 gram zullen wegen.  Dan kun je dat uit deze figuur halen door te kijken hoe groot de oppervlakte tussen die twee grenzen is. Immers daartussenin zitten alle baby's die je zoekt:
       

       
Zo aan die oppervlakte te zien schat ik dat dat ongeveer 60% is.
Ik geef toe; het wel erg onnauwkeurig om dit zo af te lezen.
Een paar oppervlaktes in deze figuur moet je uit je hoofd kennen omdat ze erg vaak voorkomen.
Dat zijn de volgende drie:
       

       
We kunnen ook deze drie figuren over elkaar heen leggen, dan krijg je zoiets, met zes verschillende gebieden onder die normale verdeling:
       

       
Kijk even goed of je snapt waar die percentages vandaan komen.
 
Voorbeeld.
Het gewicht van zakken aardappels is normaal verdeeld met een gemiddelde van 20 kg en een standaardafwijking van 1,3 kg. Hoeveel procent van de zakken aardappelen zal dan tussen de 18,7  en  22,6 kg  bevatten?

Oplossing:
18,7 is gelijk aan  m - s
22,6 is gelijk aan m + 2s
Daartussenin zit dan  34 + 34 + 13,5 =  81,5% van de zakken (het derde, vierde en vijfde gebied vanaf links van de tekening hierboven).
   
 
 
  OPGAVEN
   
1. De normale verdelingen die hieronder zijn getekend horen allemaal bij μ = 38 en σ = 7
Geef van elk van de gekleurde gebieden de oppervlakte.
         
 
         
2. Teken bij elk van de volgende gevallen een klokvorm en gebruik die om de vraag te beantwoorden.
         
  a. Het gewicht van zakken potgrond is normaal verdeeld met een gemiddelde van 20 kg en een standaarddeviatie van 0,8 kg. Hoeveel procent van de zakken zal een gewicht tussen de 18,4 en 20,8 kg hebben?
       
  b. De lengte van de brugklassers dit jaar is normaal verdeeld met een gemiddelde van 165 cm en een standaarddeviatie van 16 cm. Het blijkt dat 39% van hen korter is dan 160 cm. Hoeveel procent zal dan tussen de 170 en 181 cm lang zijn?
       
  c. Een bioloog meet de vliegsnelheid van een groot aantal zwaluwen en vindt een gemiddelde van 60 km/uur met een standaarddeviatie van 8 km/uur. Het blijkt dat bij 21% van de metingen de snelheid tussen 65 km/uur en 76 km/uur lag. Bij hoeveel procent van de metingen zal de snelheid dan kleiner dan 55 km/uur zijn geweest?
         
3. De lengte van alle Nederlandse volwassen mannen is normaal verdeeld met een gemiddelde van 183 cm.
Leg uit waarom de lengte van de Nederlandse mannen die aan basketbal doet  dan NIET normaal verdeeld zal zijn.
         
4. a. 68%  van de vrouwen in Nederland heeft een hartslag tussen de 70 en 82.
Geef een mogelijk gemiddelde en een mogelijke standaardafwijking als je weet dat de hartslag normaal verdeeld is. 
         
  b. Waarom staat er "mogelijk" in de vorige vraag?
         
5. Men heeft een onderzoek gedaan naar de hoeveelheid wijn die ion Frankrijk en in Engeland gemiddeld per hoofd van de bevolking wordt gedronken. Het onderzoek wees uit dat in Frankrijk per persoon per jaar meer wijn gedronken wordt dan in Engeland.
De spreiding is in Frankrijk kleiner dan in Engeland.
Neem aan dat in beide gevallen sprake is van een normale verdeling.

Hieronder staan vier figuren met daarin de normale verdeling voor Frankrijk en voor Engeland.
Leg duidelijk uit welk van beide figuren de juiste zal zijn.
         
 

         

© h.hofstede (h.hofstede@hogeland.nl)