Puntenwolken.

© h.hofstede (h.hofstede@hogeland.nl)

   
Er wordt nogal wat onderzocht tegenwoordig.
En dat levert een boel rapporten en krantenkoppen op.
   

   
Heel erg vaak (eigenlijk bijna altijd) gaat het bij zo'n onderzoek over een verband tussen twee gemeten grootheden. Er zijn gewoon stapels verbanden te onderzoeken!!
   

   
Als het gaat om een verband tussen twee dingen, en als we die dingen bovendien getallen kunnen uitdrukken, dan kunnen wij als wiskundigen daar natuurlijk makkelijk een plaatje van maken! Zet het ene ding op de x-as en het andere ding op de y-as en je kunt al je metingen met een stip aangeven.

Hoogste tijd voor een voorbeeld.....

In de volgende tabel staat voor de 16 leerlingen van een 4-HAVO klas hoeveel tijd zij gemiddeld aan hun huiswerk besteden, en ook wat hun rapportcijfer op wiskunde is.
   
huiswerktijd (min) 0 11 16 28 28 36 39 46 47 49 55 58 63 68 79 95
wiskundecijfer 3.0 4.0 6.0 4.2 6.5 5.9 7.7 4.8 7.1 8.3 5.8 7.8 9.0 7.7 8.6 9.3
   
Hiernaast staat op de x-as de huiswerktijd en op de y-as het wiskundecijfer. Dat geeft een hele serie van punten. Een diagram als hiernaast heet een spreidingsdiagram, en zo'n serie van punten noemen we een puntenwolk.

De grote vraag is nu: "Is er een verband tussen het cijfer en de huiswerktijd?". En zo ja: wat is dat verband dan, en hoe sterk is dat verband?

Zo'n verband noemen we een correlatie.

Het antwoord op al deze vragen is: dat hangt af van de vorm van de puntenwolk.
Laten we een paar mogelijke puntenwolk-vormen bekijken:
   

   
Bij al deze figuren is op het oog zo goed mogelijk een rechte lijn getekend. Die lijn, die het beste past bij de puntenwolk, heet de regressielijn. Later komen we daar nog uitgebreid op terug.

Twee dingen vallen verder op:
   
1. We spreken van negatieve correlatie als de regressielijn dalend is, en van positieve correlatie als de regressielijn stijgend is. Dat klinkt logisch, immers als de regressielijn daalt, dan neemt y af als x toeneemt. En als een toename van de ene grootheid een afname van de andere betekent, dan beïnvloeden ze elkaar "negatief". A en B hierboven horen bij positieve correlatie,  D en E bij negatieve correlatie.
   
2. Hoe meer de puntenwolk op een rechte lijn lijkt, des te sterker is de correlatie. Als de punten exact op een rechte lijn liggen (zoals bijna bij D)  heet de correlatie volkomen. Als de punten "willekeurig" verspreid liggen (zoals bij C) is er geen correlatie. Merk nog op dat we ook bij F spreken van geen correlatie: de y-waarden variëren helemaal niet, en lijken dus onafhankelijk van de  x-waarden.
   
 

 
Invloed van de schaalverdeling
   
Om dingen als sterkere of zwakkere correlatie af te kunnen lezen uit een spreidingsdiagram is de schaalverdeling op de x-as en de y-as wel van belang. Neem de twee figuren hieronder. Daar staan drie keer precies dezelfde meetwaarden uitgezet, maar met verschillende eenheden op de assen.
   

   
De vorm van de wolken, en dus ook de mate van correlatie,  lijkt nogal verschillend. Terwijl het echt precies dezelfde punten zijn! Om dit soort effecten te voorkomen kiezen we meestal de schaal op de assen zó, dat bij de spreiding van x en y (dus bij de standaarddeviatie!) even lange lijnstukken horen.
   
Correlatie op de GR.

Je GR kan van een tabel berekenen of er correlatie is tussen de twee variabelen en ook aangeven hoe groot die correlatie is.
Dat gaat als volgt.

Neem de volgende tabel met daarin de  huiswerktijd die een leerling heeft besteed (minuten per dag) en het wiskundecijfer dat zij heeft gehaald.
   
huiswerktijd (min) 0 11 16 28 28 36 39 46 47 49 55 58 63 68 79 95
wiskundecijfer 3.0 4.0 6.0 4.2 6.5 5.9 7.7 4.8 7.1 8.3 5.8 7.8 9.0 7.7 8.6 9.3
   
In de grafiek hiernaast vermoed je dat er sprake is van een lichte positieve correlatie.
Je GR berekent dat zó.

Zet de punten in de lijsten van je GR, via STAT - EDIT. (huiswerktijd in L1, wiskundecijfer in L2).

Zet vervolgens bij MODE - STATDIAGNOSTICS:  ON
STAT - CALC - 4: LinReg(ax + b)
en dan 
Xlist: L1,
Ylist: L2
Calculate
   
Je GR geeft dan de formule van de beste lijn die ongeveer door deze punten gaat  (in dit geval y = 0,057x + 4,22)
Maar er staat een een getal r = 0,8081...... dat is de correlatiecoëfficiënt.

Dat is een getal tussen -1 en 1 dat aangeeft hoe goed de correlatie is.
r
= 1 betekent perfecte positieve correlatie, 
r
= -1 betekent perfecte negatieve correlatie
r = 0 beteken geen correlatie.
De gevonden r = 0,808 betekent dus:  redelijk goede positieve correlatie.
In een volgende les zullen we daar meer over bekijken.
   
 
 
 OPGAVEN
   
1. In onderstaande tabel staan van de VWO-examenkandidaten van een school de resultaten die ze in 2025 behaald hebben op de CE's voor de vakken  Wiskunde A, Nederlands en Economie. Alleen de kandidaten die alle drie de vakken hebben gedaan zijn in de tabel opgenomen.
       
 
kandidaat nr. CE Wiskunde A CE Economie CE Nederlands
1 42 50 58
2 59 62 50
3 80 75 74
4 82 74 54
5 62 49 82
6 51 59 70
7 86 82 66
8 82 81 86
9 50 63 79
10 68 68 66
11 66 61 50
12 55 66 75
13 50 64 74
14 77 70 58
15 74 71 82
16 74 74 54
17 75 75 75
18 62 66 66
19 66 66 43
20 66 71 71
21 69 74 59
22 74 77 67
23 75 86 86
24 62 75 59
       
  a. Maak hiervan twee puntenwolken, eentje met op de x-as het Wiskunde-A cijfer en op de y-as het cijfer voor Nederlands, en een tweede met op de x-as het Wiskunde-A cijfer en op de y-as het Economiecijfer.
Probeer uit deze puntenwolken te halen welke twee variabelen de grootste correlatie vertonen.
       
  b. Kijk of je antwoord op vraag a) klopt door van beide puntenwolken de correlatiecoëfficiënt r  met je GR te berekenen.
     
2. Denk je dat er in de volgende gevallen sprake is van sterke/zwakke en positieve/negatieve correlatie?
       
  a. De prijs van een fles wijn en zijn ouderdom.
  b. Aantal wolven en aantal regenbuien in een gebied.
  c. Aantal Olympische medailles van een land  en Bruto Nationaal Inkomen in een land.
  d. Aantal eieren en gemiddelde gewicht van de eieren in een krokodillennest.
  e. Inkomen en ziektekosten van proefpersonen.
  f. Gewicht en IQ van proefpersonen.
  g. Productiejaar en energielabel van een vrieskast.
  h. Aantal aantal lagere scholen en aantal verkeersovertredingen in de steden van Nederland dit afgelopen jaar.
       
3. Hieronder staat een tabel voor het aantal minuten tv-kijken per dag, het aantal gelezen bladzijden per maand en de afstand tot school voor een groep middelbare scholieren.
       
 
proefpersoon nr. tv-minuten per dag gelezen blz. per maand afstand tot school
1. 125 140 0,5
2. 140 108 3,9
3. 63 200 2,0
4. 190 100 2,1
5. 158 82 5,8
6. 68 208 7,6
7. 35 262 14,0
8. 212 62 6,0
9. 135 140 0,1
10. 100 142 11,5
11. 88 198 17,9
12. 95 180 4,1
13. 141 130 15,9
14. 170 109 8,1
15. 60 257 13,0
16. 205 100 10,0
17. 151 140 7,8
18. 111 152 14,2
19. 182 130 12,1
20. 225 95 9,9
       
  a. Maak hiervan twee puntenwolken, eentje met op de x-as de tv-minuten en op de y-as de gelezen bladzijden, en een tweede met op de x-as de tv-minuten en op de y-as de afstand tot school.
Welke twee variabelen vertonen de grootste correlatie?
   
  b. Kijk of je antwoord op vraag a) klopt door van beide puntenwolken de correlatiecoëfficiënt r  met je GR te berekenen.
       
4. De volgende tabel geeft voor zeven dagen de hoogst gemeten temperatuur (T in ºC) op die dag en het aantal uren (u) zon.
       
 
T (in ºC) 16 17 17 18 19 20 22
u (in uren) 9 10 11 10 12 11 13
       
  a. Bereken de correlatiecoëfficiënt van deze gegevens.
       
  b. Geef een mogelijke verklaring voor je resultaat.
       

© h.hofstede (h.hofstede@hogeland.nl)