© h.hofstede (h.hofstede@hogeland.nl)

De Standaardafwijking.
   
We hebben al gezien dat spreidingsmaten aangeven hoe ver de gemeten getallen uit elkaar liggen. Daarvoor hebben we al  de spreidingsbreedte de kwartielafstand en de gemiddelde deviatie behandeld. Maar er is nog een andere, veel meer gebruikte maat voor de spreiding, en dat is de standaardafwijking  (of ook wel de standaarddeviatie).

De letter die we daarvoor gebruiken is σ.

De berekening daarvan lijkt nogal op die van de gemiddelde deviatie, maar je moet net één stapje extra doen.
Het recept ervoor is als volgt:
   

   
Oh ja; waarschijnlijk had je het al wel verzonnen hoop ik:  als je te maken hebt met een klassenindeling, dan doe je weer alsof alle metingen in een klasse gelijk zijn aan het klassenmidden.

Vergeleken met de "gewone" gemiddelde afwijking zijn die stap 3 en stap 5 dus nieuw. Het lijkt nogal vreemd: je neemt eerst van al die afwijkingen het kwadraat, en na afloop van al die gemiddelde kwadraten weer de wortel.

 

σ = standaardafwijking
= √(gemiddelde kwadratische afwijking)

 

Wat heeft dat voor zin?

Dat heeft in ieder geval twee simpele praktische voordelen.
Op de eerste plaats hoeven we ons er niet meer druk om te maken of de afwijking tot het gemiddelde nou plus of min is. Door dat kwadraat wordt alles gewoon plus, en dat maakt onze formules veel eenvoudiger.
Op de tweede plaats heeft dat kwadraat nemen tot gevolg dat de getallen die verder van het midden afliggen ook zwaarder meetellen, en dat willen we ook graag immers die zeggen meer over de spreiding.

Er is ook nog een minder simpel praktisch voordeel.

Het blijkt in praktijk dat histogrammen er vaak ongeveer zo uitzien als hiernaast. Veel metingen zijn ongeveer gelijk aan het gemiddelde en steeds minder metingen zitten verder van het midden af.
Dit histogram heet de normale verdeling en de "breedte" daarvan blijkt makkelijk te beschrijven met de standaarddeviatie.

   
Voorbeeldberekening.

Vier hondenliefhebbers vergelijken de hoogte van hun honden:

   

 
Ze meten achtereenvolgens de hoogtes  19 cm, 70 cm, 39 cm en 55 cm.
De gemiddelde hoogte is dan 45 cm, en dat geeft de blauwe lijn hieronder aan
   

 
De afwijkingen van de vier honden ten opzichte van dat gemiddelde zijn 26 cm, 25 cm, 6 cm en 10 cm.
De kwadraten daarvan zijn 676,  625, 36 en 100
Het gemiddelde van deze vier kwadraten is (676 + 625 + 36 + 100)/4 = 359,25
De wortel daarvan is  √359,25 18,95 cm.
Hieronder kun je zien wat die spreiding van 18,95 cm ten opzichte van het gemiddelde van 45 cm betekent.
   

 
De beide groene lijnen liggen op afstand 18,95 cm vanaf het gemiddelde.
Je ziet dat de laatste twee honden minder dan een standaarddeviatie van het midden af zitten.

In de tabel hiernaast is nog eens schematisch te zien hoe de berekening van de standaarddeviatie in zijn werk is gegaan.
 
hond
nr.
hoogte
(cm)
afw.
Δ
Δ2
1
2
3
4
19
70
39
55
26
25
6
10
676
635
56
100
      gem. 45 gem.359,25
 σ = 18,95
   
Wat stelt het ongeveer voor?  
   
Hieronder zijn voor een aantal histogrammen in dezelfde figuur de standaarddeviatie en de gemiddelde deviatie als afstand vanaf het gemiddelde gegeven. De blauwe en rode lijnen hieronder geven steeds de plaats van gemiddelde-plus-deviatie/standaarddeviatie en gemiddelde-min-deviatie/standaarddeviatie.
   

   
Je ziet dat het allemaal niet spectaculair veel verschilt van elkaar. De standaarddeviatie bestrijkt steeds een iets breder deel van het histogram dan de "gewone"deviatie. Dat komt natuurlijk omdat die buitenste meetwaarden wat zwaarder meetellen.
   
Formules....
Als je geïnteresseerd bent in formules, dan kun je in de verdieping hiernaast wat formules voor de standaarddeviatie vinden. Veel zul je ze niet gebruiken; meestal wordt de standaarddeviatie met een computer/rekenmachine berekend.
 
   
Met de GR

Nou, dat gaat precies zo als de berekeningen van het gemiddelde en de mediaan en de kwartielen.

Voer de frequentieverdeling in in je TI via STAT - EDIT

Bedenk wel dat je bij een klassenindeling de klassenmiddens moet gebruiken in L1.

Gebruik daarna  STAT - CALC - 1: 1-Var Stats (  L1  , L2 )  waarbij in L1 de meetwaarden (evt klassenmiddens) staan en in L2 de frequenties (of procenten). L1 en L2 vind je boven de knoppen 1 en 2  (dus 2nd gebruiken).
 

In het lijstje dat je dan voor je neus krijgt is σx de standaarddeviatie.

Voor de volgende tabel zie daaronder hoe dat er op de TI-83 uitziet.

   
meetwaarde 2 -< 10 10 -< 18 18 -< 26 26 -< 34 34  -< 42
frequentie 6 13 27 23 12
   

   
Zoals je ziet komen in L1 de klassenmiddens (als dat nodig is)
rechts zie je dat de standaarddeviatie gelijk is aan  8,978.....
   
De standaarddeviatie van een rij losse getallen.

Natuurlijk kun  je ook van een rij "losse" getallen de standaarddeviatie berekenen. 
Volgens bovenstaande methode zou je de getallen in L1 moeten zetten allemaal met frequentie 1 in L2, immers elk getal komt één keer voor.
Maar je rekenmachine kan dat sneller....
Als je je getallen in L1 zet, en dan eenvoudig gebruikt   STAT - CALC - 1-Var-Stats (L1)  dan neemt je rekenmachine automatisch alle frequenties gelijk aan 1. Dat scheelt weer een boel enen in vullen......
   
 
 
  OPGAVEN
   
1. Iemand meet elke week zijn bloeddruk, en voor de bovendruk (de systolische druk)  levert dat de volgende serie metingen op:.

130 - 110 - 126 - 128 - 134 - 130 - 133 - 131 - 135 - 137 - 129
       
  a. Bereken de standaardafwijking van deze waarden.
       
  b. De waarde 110  is wel érg laag  en is waarschijnlijk het gevolg van een storing van de bloeddrukmeter. 
Hoe groot zou de standaardafwijking zijn geweest zonder deze meetwaarde?
   
2. Voor een aantal busritten is het aantal passagiers in de bus geteld  Dat leverde de tabel hiernaast.
aantal
passagiers
aantal
bussen
0 - 4 2
5 - 9 7
10 - 14 10
15 - 19 14
 20 - 24 16
25 - 29 12
30 - 34 8
35 - 39 4
       
  a. Bereken van deze frequentieverdeling het gemiddelde en de standaardafwijking. Rond af op gehele getallen.
       
  b. Bereken hoeveel busritten er méér dan de standaardafwijking van het gemiddelde afliggen. (neem aan dat de aantallen gelijkmatig over de klassen zijn verdeeld)
       
  c. Maak een nieuwe klassenindeling met een breedte van 10, en bereken opnieuw het gemiddelde en de standaardafwijking. Leg uit waarom dit veranderd is. Tussen welke grenzen kan het gemiddelde van deze frequentieverdeling liggen?
         
3. Gedurende een hele maand  (30 dagen) is de maximale luchtdruk (in mbar(
       
 
1010  1020   1016     996    999    1018   1010   1013    991  1022
 993   1001   1005   1012   1018   1093   1062   1000   994   1002 
1001  1012   1016     990   1015   1018   1022    984   1023  1013    
       
  a. Bereken het gemiddelde en de standaardafwijking van deze luchtdrukwaarden
       
  b. Hoeveel procent van de dagen had een luchtdruk die méér dan een standaardafwijking van het gemiddelde afweek?
     
4. In het dubbele steel- en bladdiagram hiernaast staan de stappen die de werknemers van een bedrijf gemiddeld per dag maken, gesplitst naar man-vrouw.

Er is afgerond op honderdtallen.
In het blok staan duizendtallen, de bladeren stellen honderdtallen voor.

 
     
  a. Probeer zonder een berekening te maken in te schatten wie de grotere standaardafwijking heeft (de vrouwen of de mannen).
     
  b. Controleer je antwoord op de vorige vraag met een berekening.
     
  c. Ga met een berekening na of de standaardafwijking van de hele groep mannen en vrouwen sámen gelijk is aan de standaardafwijking van de mannen plus die van de vrouwen.
       
5. Hiernaast staat de frequentietabel van bedragen die consumenten tijdens de jaarwisseling uitgaven aan vuurwerk,
uitgaven in euro's aantal
0 - < 10 124
10 - < 20 150
20 - < 30 188
30 - < 40 201
40 - < 50 164
50 - < 60 82
     
  a. Maak hiervan een histogram. Gebruik op de y-as een frequentiedichtheid..
     
  b. Hoeveel procent van de consumenten gaf een bedrag aan vuurwerk uit dat  meer dan één standaardafwijking van het gemiddelde afwijkt? Geef dat aan in je histogram.
       
 
 

© h.hofstede (h.hofstede@hogeland.nl)