Puntenwolken.

© h.hofstede (h.hofstede@hogeland.nl)

   
Er wordt nogal wat onderzocht tegenwoordig.
En dat levert een boel rapporten en krantenkoppen op.
   

   
Heel erg vaak (eigenlijk bijna altijd) gaat het bij zo'n onderzoek over een verband tussen twee gemeten grootheden. Er zijn gewoon stapels verbanden te onderzoeken!!
   

   
Als het gaat om een verband tussen twee dingen, en als we die dingen bovendien getallen kunnen uitdrukken, dan kunnen wij als wiskundigen daar natuurlijk makkelijk een plaatje van maken! Zet het ene ding op de x-as en het andere ding op de y-as en je kunt al je metingen met een stip aangeven.

Hoogste tijd voor een voorbeeld.....

In de volgende tabel staat voor de 16 leerlingen van een 4-HAVO klas hoeveel tijd zij gemiddeld aan hun huiswerk besteden, en ook wat hun rapportcijfer op wiskunde is.
   
huiswerktijd (min) 0 11 16 28 28 36 39 46 47 49 55 58 63 68 79 95
wiskundecijfer 3.0 4.0 6.0 4.2 6.5 5.9 7.7 4.8 7.1 8.3 5.8 7.8 9.0 7.7 8.6 9.3
   
Hiernaast staat op de x-as de huiswerktijd en op de y-as het wiskundecijfer. Dat geeft een hele serie van punten. Een diagram als hiernaast heet een spreidingsdiagram, en zo'n serie van punten noemen we een puntenwolk.

De grote vraag is nu: "Is er een verband tussen het cijfer en de huiswerktijd?". En zo ja: wat is dat verband dan, en hoe sterk is dat verband?

Zo'n verband noemen we een correlatie.

Het antwoord op al deze vragen is: dat hangt af van de vorm van de puntenwolk.
Laten we een paar mogelijke puntenwolk-vormen bekijken:
   

   
Bij al deze figuren is op het oog zo goed mogelijk een rechte lijn getekend. Die lijn, die het beste past bij de puntenwolk, heet de regressielijn. Later komen we daar nog uitgebreid op terug.

Twee dingen vallen verder op:
   
1. We spreken van negatieve correlatie als de regressielijn dalend is, en van positieve correlatie als de regressielijn stijgend is. Dat klinkt logisch, immers als de regressielijn daalt, dan neemt y af als x toeneemt. En als een toename van de ene grootheid een afname van de andere betekent, dan beïnvloeden ze elkaar "negatief". A en B hierboven horen bij positieve correlatie,  D en E bij negatieve correlatie.
   
2. Hoe meer de puntenwolk op een rechte lijn lijkt, des te sterker is de correlatie. Als de punten exact op een rechte lijn liggen (zoals bijna bij D)  heet de correlatie volkomen. Als de punten "willekeurig" verspreid liggen (zoals bij C) is er geen correlatie. Merk nog op dat we ook bij F spreken van geen correlatie: de y-waarden variëren helemaal niet, en lijken dus onafhankelijk van de  x-waarden.
   
 

 
Invloed van de schaalverdeling
   
Om dingen als sterkere of zwakkere correlatie af te kunnen lezen uit een spreidingsdiagram is de schaalverdeling op de x-as en de y-as wel van belang. Neem de twee figuren hieronder. Daar staan drie keer precies dezelfde meetwaarden uitgezet, maar met verschillende eenheden op de assen.
   

   
De vorm van de wolken, en dus ook de mate van correlatie,  lijkt nogal verschillend. Terwijl het echt precies dezelfde punten zijn! Om dit soort effecten te voorkomen kiezen we meestal de schaal op de assen zó, dat bij de spreiding van x en y (dus bij de standaarddeviatie!) even lange lijnstukken horen.
   
   
 OPGAVEN
   
1. In de volgende tabel staat voor een echtparen de lengte van de man en de lengte van de vrouw (in cm).
       
 
koppel nr. 1 2 3 4 5 6 7 8 9 10 11 12
man 196 208 174 163 186 171 172 160 201 184 168 182
vrouw 170 186 175 152 175 166 153 158 179 165 161 170
       
  a. Teken een puntenwolk die bij deze gegevens past.  
       
  We gaan nu aan partnerruil doen......
       
  b. Schrijf  de lengtes van de vrouwen op losse briefjes. Vouw die op en gooi ze in een hoge hoed of op een andere willekeurige stapel. Trek de briefjes één voor één en koppel ze op die manier aan de mannen (briefje 1 bij man 1, enz.).
Teken opnieuw een puntenwolk.
       
  c. Welke verschillen zie je in de puntenwolken van vraag a) en vraag b)?
Wat zegt dat over de lengte van een man en de lengte van zijn echtgenote?
       
2. Denk je dat er in de volgende gevallen sprake is van sterke/zwakke en positieve/negatieve correlatie?
       
  a. De waarde van een auto en zijn ouderdom.
  b. Aantal ooievaars en aantal geboorten in een gebied.
  c. Aantal MacDonalds-vestigingen en Bruto Nationaal Inkomen in een land.
  d. Het aantal pasgeboren poesjes in een nest en hun gemiddelde gewicht.
  e. Leeftijd en bloeddruk.
  f. Gezichtsvermogen en schoenmaat.
  g. Het bouwjaar en het benzineverbruik van een auto.
  h. Aantal inbraken en aantal verkeerslichten in de steden van Nederland dit afgelopen jaar.
       
3. Hieronder staat een tabel voor de hoeveelheid vet, vezels en calorieën voor 100 gram van een aantal voedingsmiddelen  (bron:  calorielijst.nl).
       
 
voedsel vet koolhydraten caloriëen
yoghurt 4,9 17,9 127
dieetmargarine (Aldi) 60 0,2 541
gekookte aardappelen 0,1 17,0 78
leverworst 20,4 5,2 264
honingmosterd (HEMA) 10,3 15,6 182
kaas 45+ 31,0 2,0 400
kipnuggets (AH) 14,0 16,0 240
M&M met pinda's 27,1 57,3 514
falafel 12,5 27,0 263
Fanta medium (McDonalds) 0,0 48,0 190
haaskarbonade 6,7 0,0 150
       
  Maak hiervan twee puntenwolken, eentje met op de x-as de koolhydraten en op de y-as de calorieën, en een tweede met op de x-as het vet en op de y-as de calorieën.
Welke twee variabelen vertonen de grootste correlatie?
       
     

© h.hofstede (h.hofstede@hogeland.nl)