|
©
h.hofstede (h.hofstede@hogeland.nl) |
De Centrale Limietstelling. |
|
|
Het was de wiskundige Carl Friedrich Gauss die inzag dat
heel veel frequentieverdelingen gelijk zijn.
En niet zomaar ongeveer gelijk; nee hij ontdekte dat die figuren
PRECIES gelijk waren!!! Hij ontwikkelde zelfs een formule voor die
figuren. |
|
Gauss ontdekte deze formule op
17-jarige (!!!) leeftijd. Deze ontdekking is zo belangrijk voor de
statistiek geworden, dat Gauss er in Duitsland zelfs het 10-mark biljet
mee haalde. Samen met zijn normale verdeling!
Wiskundigen noemen deze figuur en deze kansverdeling de
Normale Verdeling.
Natuurkundigen hebben het vaak over de Gauss-kromme.
Die ontdekking van Gauss heet de
Centrale Limiet Stelling: |
|
|
Als je een heleboel
willekeurige dingen, die onafhankelijk van elkaar zijn en
allemaal hun eigen gemiddelde en standaarddeviatie hebben,
bij elkaar optelt, dan wordt het resultaat een normale
verdeling. |
|
|
|
In de verdieping hiernaast kun je meer vinden
over de achtergrond hiervan. |
|
|
Waarom is de normale verdeling
eigenlijk zo belangrijk? |
|
|
Omdat de normale verdeling elke
keer ontstaat als een groot aantal willekeurige factoren wordt opgeteld
komt hij erg vaak voor. Immers, bijna alles wat wij meten is gevolg van
een groot aantal factoren; gewicht, lengte, IQ, temperatuur, behaalde
proefwerkcijfers, meetfouten, noem maar op. |
|
|
Eigenschappen van de normale
verdeling. |
|
|
De normale verdeling heeft een
aantal handige en belangrijke eigenschappen: |
|
|
• |
Hij wordt volledig bepaald door twee getallen: het
gemiddelde μ en de standaardafwijking σ.
Dat kun je zien aan die moeilijke formule van Gauss.
Het gemiddelde
μ vind je "natuurlijk"
in het midden. De standaarddeviatie
σ
bepaalt hoe breed de klokvorm wordt. Om precies te zijn is het
de horizontale afstand vanaf het midden naar de buigpunten van
de figuur. Dat zijn de punten waar de grafiek van "hol" overgaat
naar "bol". |
|
|
|
Dus als je m verandert dan
schuift de klokvorm in zijn geheel naar links of naar rechts en
als je
σ verandert, dan wordt de
klokvorm breder of smaller maar blijft het midden op zijn
plaats. |
|
|
|
• |
De totale oppervlakte onder de normale verdeling is 1.
Bedenk dat daar eigenlijk heel veel kleine staafjes van een
histogram onder de klokvorm staan. De totale oppervlakte van een
histogram is gelijk aan de totale frequentie, en als je op de
y-as procenten zet komt daar 100% uit. "Alles samen is
100%". |
|
|
|
• |
De klokvorm is symmetrisch.
Je kunt hem spiegelen in de lijn x =
μ. Dat is natuurlijk nogal logisch als je je bedenkt dat
hij gevolg is van heel veel willekeurige factoren. Als die echt
willekeurig zijn zullen ze even vaak een bijdrage kleiner dan
μ leveren als een bijdrage groter dan
μ.
Van deze verdeling zijn het gemiddelde en de mediaan en de modus
alle drie aan elkaar gelijk. |
|
|
|
Vuistregels van de normale verdeling |
|
|
|
|
Hier zie je nog een
keer de normale verdeling met de twee getallen die hem bepalen: |
|
|
|
|
|
|
|
|
|
Bij een werkelijk
statistisch onderzoek is het geen vloeiende kromme maar staat hier
eigenlijk een histogram met allemaal kleine staafjes. Hoe meer hoe
beter. In deze les zal ik dat wel steeds tekenen als vloeiende kromme
(dat is minder werk)
De totale oppervlakte onder deze normale verdeling is 1 (of 100%).
Stel dat je een onderzoek hebt gedaan naar het gewicht van
pasgeboren baby's en je hebt gevonden dat dat normaal verdeeld is met
een gemiddelde van 3500 gram en een standaardafwijking van 210 gram.
Dan hoort daar dus zo'n normale verdeling bij: |
|
|
|
|
|
|
|
|
|
Stel nu dat je graag
wilt weten hoeveel pasgeboren baby's tussen de 3400 en 3800 gram zullen
wegen. Dan kun je dat uit deze figuur halen door te kijken hoe
groot de oppervlakte tussen die twee grenzen is. Immers daartussenin
zitten alle baby's die je zoekt: |
|
|
|
|
|
|
|
|
|
Zo aan die
oppervlakte te zien schat ik dat dat ongeveer 60% is.
Ik geef toe; het wel erg onnauwkeurig om dit zo af te lezen.
Een paar oppervlaktes in deze figuur moet je uit je hoofd kennen omdat
ze erg vaak voorkomen.
Dat zijn de volgende drie: |
|
|
|
|
|
|
|
|
|
We kunnen ook deze
drie figuren over elkaar heen leggen, dan krijg je zoiets, met zes
verschillende gebieden onder die normale verdeling: |
|
|
|
|
|
|
|
|
|
Kijk even goed of je
snapt waar die percentages vandaan komen. |
|
Voorbeeld.
Het gewicht van zakken aardappels is normaal verdeeld met een gemiddelde
van 20 kg en een standaardafwijking van 1,3 kg. Hoeveel procent van de
zakken aardappelen zal dan tussen de 18,7 en 22,6 kg
bevatten?
Oplossing:
18,7 is gelijk aan m
- s
22,6 is gelijk aan m + 2s
Daartussenin zit dan 34 + 34 + 13,5 = 81,5% van de zakken
(het derde, vierde en vijfde gebied vanaf links van de tekening
hierboven). |
|
|
|
|
|
|
OPGAVEN |
|
|
|
©
h.hofstede (h.hofstede@hogeland.nl) |
|