|
|
 |
|
|
©
h.hofstede (h.hofstede@hogeland.nl) |
|
|
De correlatiecoëfficiënt r. |
|
| |
|
| Voor de covariantie
Cov(x, y) =
σxy
vonden we de volgende formule: |
| |
|
|
|
| |
|
Het blijkt dat deze covariantie aardig
aangeeft hoe "goed" de punten op een lijn liggen. Dat kun je al een
beetje inzien door de figuur hiernaast te bekijken.
Voor de rode punten is de covariantie negatief, omdat
Δxi en
Δyi en tegengesteld teken
hebben, voor de groene punten is de covariantie positief want daar
hebben
Δxi en
Δyi het zelfde teken
(rechtsboven beiden positief, linksonder beiden negatief) .
Dat betekent dat de punten van een zelfde kleur elkaar "versterken" in
de covariantie. Veel rode punten zal een grote negatieve covariantie
geven, en veel groene punten een grote positieve covariantie.
Maar veel punten van een zelfde kleur betekent ook een grote correlatie!
Immers dan ligt de puntenwolk grotendeels "dezelfde kant op". Rode
punten geeft een negatieve r, groene punten een positieve. |
 |
| Het lijkt erop dat de
correlatiecoëfficiënt en de covariantie zo ongeveer hetzelfde
doen....... |
| |
|
|
Zullen we voor
r
dan maar gewoon Cov(x,y)
nemen? |
| |
|
Dat zou kunnen, maar dat heeft
één levensgroot nadeel.
En dat komt door de schaal.
Kijk, stel dat we bijvoorbeeld de lengte en het gewicht van mensen
hebben gemeten en daarvan een prachtige puntenwolk hebben gemaakt. Op de
x-as staat bijvoorbeeld de lengte in cm en op de y-as het
gewicht in kg. We hebben zelfs de covariantie bij deze puntenwolk
uitgerekend...
Maar als onze buurvrouw met precies dezelfde gegevens de lengte niet in
centimeters maar in meters op de x-as zet, dan krijgt zij
natuurlijk precies dezelfde puntenwolk, maar al haar
Δxi zijn 100 keer zo klein,
dus ook haar covariantie!
Dat kán natuurlijk niet!
Bij dezelfde vorm van de puntenwolk moet dezelfde r horen. Dit probleem
is te voorkomen door de covariantie te delen door de breedte van de x-waarden.
En daarvoor nemen we.....juist!....uiteraard!!....de standaarddeviatie
σx natuurlijk!!!
Dan veranderen we eigenlijk alle
Δxi
van een absolute afstand naar hoeveelste deel van de x-breedte
het is. Dan is dat niet meer van de schaal afhankelijk.
En voor de y-schaal geldt natuurlijk precies hetzelfde.
Daarom delen we de covariantie óók door
σy.
Hè hè, dat geeft dan eindelijk een goede waarde voor r: |
| |
|
|
|
| |
|
Daarmee hebben we natuurlijk nog
niet verklaard waarom bij een perfecte rechte lijn r = 1 of r
= -1 zal
horen. Of zelfs niet waarom bij een rechte lijn r maximaal zal
zijn......
In de verdieping hiernaast laten we daar een voorbeeld van zien, en
zelfs een soort van "bewijs"...... |
| |
 |
|
Een verband tussen r en a. |
| |
|
| Als je de twee formules voor r
(de correlatiecoëfficiënt) en a (de helling van de regressielijn)
met elkaar vergelijkt dan lijken die nogal op elkaar: |
| |
|
|
 |
| |
|
| Daaruit kun je vrij eenvoudig
concluderen (bewijs het zelf maar) dat: |
|
| |
|
|
|
| |
|
Dat lijkt misschien een beetje
een vreemd resultaat. De helling van de beste lijn (a)
hangt af van hoe goed de punten op een lijn liggen (r)???
Toch is dat wel logisch als je het volgende bedenkt.....
Die σy/σx
is de helling van de centrale lijn. Die
bepaalt de globale afmetingen van de puntenwolk. Immers
σy zegt hoe ver de x-waarden
uit elkaar liggen (dus hoe breed de puntenwolk is) en
σy hoe ver de y-waarden
uit elkaar liggen (dus hoe hoog de puntenwolk is). Samen bepaalt dat de
"buitenomtrek van de puntenwolk" . Een soort van rechthoek waar de
puntenwolk grotendeels in ligt: |
| |
|
|
 |
| |
|
Als je weet dat de punten van je
puntenwolk op de linker- rechter- boven- én onderrand van de rechthoek
moeten liggen, zie je hierboven de maximaal haalbare waarde voor a
en ook de minimaal haalbare a.
De r bepaalt vervolgens in hoeverre deze maximale of minimale waarden
ook werkelijk bereikt worden. Eigenlijk "hoeveelste deel van de a
gehaald wordt". |
| |
|
| |
|
|
|
OPGAVEN |
| |
|
| 1. |
De volgende tabel geeft voor 10 vrouwen de
lengte (L in cm) en de schoenmaat (S: de Europese maat) |
| |
|
|
|
| |
| lengte (cm) |
155 |
158 |
164 |
166 |
166 |
170 |
176 |
177 |
181 |
186 |
| schoenmaat (S) |
36 |
36,5 |
36,5 |
38 |
37 |
39 |
39,5 |
38,5 |
40 |
43 |
|
| |
|
|
|
| |
a. |
Bereken de correlatiecoëfficiënt van
deze gegevens. |
| |
|
|
|
| |
b. |
Je kunt de schoennmaat ook
uitdrukken in de Engelse maat (E).
Daarvoor geldt: E = L • 0,8 - 25,4
Verander de schoenmaten S naar de Engelse maat E, en laat zien
dat r hetzelfde blijft. |
| |
|
|
|
| 2. |
Hieronder staat een tabel van drie
meetgegevens. De laatste y-waarde is voorlopig onbekend,
en is p genoemd. |
| |
|
|
|
| |
|
| |
|
|
|
| |
Voor de correlatiecoëfficiënt geldt
dan: |
| |
 |
| |
|
|
|
| |
a. |
Toon dat aan. |
| |
|
|
|
| |
b. |
Bereken de extreme waarde van de
functie r(p) en leg daarna uit waarom je dit
resultaat inderdaad had kunnen verwachten. |
| |
|
|
|
|
| 3. |
Hiernaast zie je voor een
puntenwolk (die er niet bij is getekend), de centrale lijn en de
regressielijn.
Bepaal zo goed mogelijk daaruit de waarde van r. |
 |
| |
|
|
|
| 4. |
Bij turnen worden de prestaties van de deelnemende sporters
beoordeeld door een jury.
In onderstaande tabel vind je voor 10 sporters de scores die
zijn voor een oefening op de brug van twee verschillende
juryleden hebben gekregen. |
| |
|
| |
| sporter |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
| jurylid 1 |
9,0 |
8,2 |
8,9 |
6,7 |
9,5 |
5,2 |
6,1 |
8,0 |
8,8 |
6,9 |
| jurylid 2 |
9,2 |
8,5 |
8,2 |
7,2 |
9,0 |
6,1 |
5,7 |
8,6 |
8,0 |
7,3 |
|
| |
|
|
|
| |
a. |
Geef een vergelijking van de
regressielijn en bereken de correlatiecoëfficiënt. |
| |
|
|
|
| |
b. |
Hoe groot is de som van de kwadraten van residuen? |
| |
|
|
|
| |
Voor een oefening op de balk gold bij deze twee juryleden de
regressielijn J2 = 0,9 ·
J1 - 0,12
Daarbij is J1 de score van jurylid nr.1. en J2 de score van
jurylid nr. 2
De correlatiecoëfficiënt hierbij was 0,82
De gemiddelde gegeven score van jurylid 1 was 7,4. |
| |
|
|
|
| |
c. |
Geef een vergelijking van de centrale lijn. |
| |
|
|
|
|
 |
|
|
©
h.hofstede (h.hofstede@hogeland.nl) |
|
| |
|