correlatiecoefficient


	© h.hofstede (h.hofstede@hogeland.nl)

De correlatiecoëfficiënt r.

Voor de covariantie Cov(x, y) = σ_xy vonden we de volgende formule:

Het blijkt dat deze covariantie aardig aangeeft hoe "goed" de punten op een lijn liggen. Dat kun je al een beetje inzien door de figuur hiernaast te bekijken.
Voor de rode punten is de covariantie negatief, omdat Δx_i en Δy_i en tegengesteld teken hebben, voor de groene punten is de covariantie positief want daar hebben Δx_i en Δy_i het zelfde teken (rechtsboven beiden positief, linksonder beiden negatief) .

Dat betekent dat de punten van een zelfde kleur elkaar "versterken" in de covariantie. Veel rode punten zal een grote negatieve covariantie geven, en veel groene punten een grote positieve covariantie.

Maar veel punten van een zelfde kleur betekent ook een grote correlatie! Immers dan ligt de puntenwolk grotendeels "dezelfde kant op". Rode punten geeft een negatieve r, groene punten een positieve.

Het lijkt erop dat de correlatiecoëfficiënt en de covariantie zo ongeveer hetzelfde doen.......

Zullen we voor r dan maar gewoon Cov(x,y) nemen?

Dat zou kunnen, maar dat heeft één levensgroot nadeel.

En dat komt door de schaal.

Kijk, stel dat we bijvoorbeeld de lengte en het gewicht van mensen hebben gemeten en daarvan een prachtige puntenwolk hebben gemaakt. Op de x-as staat bijvoorbeeld de lengte in cm en op de y-as het gewicht in kg. We hebben zelfs de covariantie bij deze puntenwolk uitgerekend...
Maar als onze buurvrouw met precies dezelfde gegevens de lengte niet in centimeters maar in meters op de x-as zet, dan krijgt zij natuurlijk precies dezelfde puntenwolk, maar al haar Δx_i zijn 100 keer zo klein, dus ook haar covariantie!

Dat kán natuurlijk niet!

Bij dezelfde vorm van de puntenwolk moet dezelfde r horen. Dit probleem is te voorkomen door de covariantie te delen door de breedte van de x-waarden. En daarvoor nemen we.....juist!....uiteraard!!....de standaarddeviatie σ_x natuurlijk!!!
Dan veranderen we eigenlijk alle Δx_i van een absolute afstand naar hoeveelste deel van de x-breedte het is. Dan is dat niet meer van de schaal afhankelijk.

En voor de y-schaal geldt natuurlijk precies hetzelfde. Daarom delen we de covariantie óók door σ_y.
Hè hè, dat geeft dan eindelijk een goede waarde voor r:

Daarmee hebben we natuurlijk nog niet verklaard waarom bij een perfecte rechte lijn r = 1 of r = -1 zal horen. Of zelfs niet waarom bij een rechte lijn r maximaal zal zijn......
In de verdieping hiernaast laten we daar een voorbeeld van zien, en zelfs een soort van "bewijs"......

Een verband tussen r en a.

Als je de twee formules voor r (de correlatiecoëfficiënt) en a (de helling van de regressielijn) met elkaar vergelijkt dan lijken die nogal op elkaar:

Daaruit kun je vrij eenvoudig concluderen (bewijs het zelf maar) dat:

Dat lijkt misschien een beetje een vreemd resultaat. De helling van de beste lijn (a) hangt af van hoe goed de punten op een lijn liggen (r)???
Toch is dat wel logisch als je het volgende bedenkt.....

Die ^σy/_σx is de helling van de centrale lijn. Die bepaalt de globale afmetingen van de puntenwolk. Immers σ_y zegt hoe ver de x-waarden uit elkaar liggen (dus hoe breed de puntenwolk is) en σ_y hoe ver de y-waarden uit elkaar liggen (dus hoe hoog de puntenwolk is). Samen bepaalt dat de "buitenomtrek van de puntenwolk" . Een soort van rechthoek waar de puntenwolk grotendeels in ligt:

Als je weet dat de punten van je puntenwolk op de linker- rechter- boven- én onderrand van de rechthoek moeten liggen, zie je hierboven de maximaal haalbare waarde voor a en ook de minimaal haalbare a.
De r bepaalt vervolgens in hoeverre deze maximale of minimale waarden ook werkelijk bereikt worden. Eigenlijk "hoeveelste deel van de a gehaald wordt".

OPGAVEN

De volgende tabel geeft voor 10 vrouwen de lengte (L in cm) en de schoenmaat (S: de Europese maat)

lengte (cm)	155	158	164	166	166	170	176	177	181	186
schoenmaat (S)	36	36,5	36,5	38	37	39	39,5	38,5	40	43

Bereken de correlatiecoëfficiënt van deze gegevens.

Je kunt de schoennmaat ook uitdrukken in de Engelse maat (E).
Daarvoor geldt: E = L • 0,8 - 25,4
Verander de schoenmaten S naar de Engelse maat E, en laat zien dat r hetzelfde blijft.

Hieronder staat een tabel van drie meetgegevens. De laatste y-waarde is voorlopig onbekend, en is p genoemd.

x	2	3	4
y	4	8	p

Voor de correlatiecoëfficiënt geldt dan:

Toon dat aan.

Bereken de extreme waarde van de functie r(p) en leg daarna uit waarom je dit resultaat inderdaad had kunnen verwachten.

Hiernaast zie je voor een puntenwolk (die er niet bij is getekend), de centrale lijn en de regressielijn.

Bepaal zo goed mogelijk daaruit de waarde van r.

Bij turnen worden de prestaties van de deelnemende sporters beoordeeld door een jury.
In onderstaande tabel vind je voor 10 sporters de scores die zijn voor een oefening op de brug van twee verschillende juryleden hebben gekregen.

sporter	1	2	3	4	5	6	7	8	9	10
jurylid 1	9,0	8,2	8,9	6,7	9,5	5,2	6,1	8,0	8,8	6,9
jurylid 2	9,2	8,5	8,2	7,2	9,0	6,1	5,7	8,6	8,0	7,3

Geef een vergelijking van de regressielijn en bereken de correlatiecoëfficiënt.

Hoe groot is de som van de kwadraten van residuen?

Voor een oefening op de balk gold bij deze twee juryleden de regressielijn J2 = 0,9 · J1 - 0,12
Daarbij is J1 de score van jurylid nr.1. en J2 de score van jurylid nr. 2
De correlatiecoëfficiënt hierbij was 0,82
De gemiddelde gegeven score van jurylid 1 was 7,4.

Geef een vergelijking van de centrale lijn.