|
||||||||||||||||||||
Covariantie. | ||||||||||||||||||||
In deze les gaan we een manier bekijken om te bepalen hoeveel twee variabelen "aan elkaar verbonden zijn". Wat daar precies mee wordt bedoeld wordt later wel duidelijk. Laten we beginnen met een eenvoudige kansverdeling van twee variabelen, zoals hier linksonder. | ||||||||||||||||||||
|
||||||||||||||||||||
Omdat we kijken naar
de ligging van de variabelen ten opzichte van elkaar, doet de plaats van
deze hele "puntenwolk" in ons assenstelsel er niet toe. In de
rechterfiguur hebben we de oorsprong op het punt (xG,
yG) gekozen. We bekijken dan van elk punt de
afwijkingen (x - xG) en (y - yG)
ten opzichte van dat "centrale punt" (dat is (5, 4) in deze figuur). Laten we het product (x - xG) • (y - yG) eens gaan bekijken.... |
||||||||||||||||||||
In de groene gebieden hiernaast is dat product positief (rechtsboven plus • plus, linksonder min • min), en in de rode gebieden hiernaast negatief. Als je nou voor elk punt in de figuur dat product berekent en dan al die producten bij elkaar optelt krijg je een aardig idee van hoe de punten ten opzichte van elkaar verdeeld liggen. Immers als dat totale product positief wordt zullen de punten vooral van linksonder naar rechtsboven liggen, (veel positieve bijdragen), en als het negatief wordt zullen de punten vooral van linksboven naar rechtsonder liggen (veel negatieve bijdragen) Als het product ongeveer nul wordt, zullen er in de rode gebieden ongeveer evenveel punten liggen als in de groene. Dat is zo als de punten "zomaar" willekeurig verspreid liggen. |
|
|||||||||||||||||||
Dit totale product
noemen we de covariantie, en we korten het af met Cov(x, y)
of ook wel
σXY (we zullen later zien dat het nogal lijkt op
een standaarddeviatie, vandaar...). Als je niet alle losse stippen in de figuur bekijkt, maar alleen bij elke mogelijke uitkomst |
||||||||||||||||||||
• | Als je alle "stippen"
uit de figuur meetelt, dan moet je voor de gemiddelde waarde van (x
- xG)(y - yG) nog delen door
het aantal punten (n). In bovenstaand geval zijn er 10
stippen, dus n = 10. Dat zou geven: Cov(x, y) = {(-2 • -2) + (-1 • -1) + (-1 • -1) + 0 + 0 + (1 • 1) + (1 • 1) + (2 • 2) + (-1 • 1) + (1 • -1)}/10 = 10/10 = 1 |
|||||||||||||||||||
• | Als je alleen
sommeert over alle (x, y) van de uitkomstenmogelijkheden,
dan moet je als wegingsfactor nog wel al die (x - xG)(y
- yG) vermenigvuldigen met de kans pxy
(in bovenstaand voorbeeld zijn er 7 mogelijke uitkomsten met kansen
1/10,
1/10,
1/10,
1/10,
2/10,
2/10,
2/10) Dat zou geven: Cov(x, y) = (-2 • -2) • 1/10 + (-1 • -1) • 2/10 + 0 • 2/10 + (1 • 1) • 2/10 + (2 • 2) • 1/10 + (-1 • 1) • 1/10 + (1 • -1) • 1/10 = 1 |
|||||||||||||||||||
Daar komt (uiteraard)
het zelfde uit. Er zijn dus twee mogelijke definities voor de covariantie, afhankelijk of je met kanstabellen of met puntenwolken bezig bent. |
||||||||||||||||||||
|
||||||||||||||||||||
De bovenste som gaat
over alle mogelijke uitkomsten, de onderste over alle punten. Laten we die bovenste som eens uitwerken: |
||||||||||||||||||||
Σ(x
- xG)(y - yG) • pxy
= Σ(xy • pxy - xGy • pxy - xyG • pxy + xGyG • pxy ) = Σxy • pxy - ΣxGy • pxy - ΣxyG • pxy + ΣxGyG • pxy Maar die xG en yG zijn constanten dus die mag je ook wel voor die somtekens zetten: = Σxy • pxy - xG • Σy • pxy - yG • Σx • pxy + xGyG • Σpxy |
||||||||||||||||||||
De eerste term is
niets anders dan de verwachtingswaarde van xy Het somteken van de tweede term is gewoon yG dus de tweede term is gelijk aan xGyG Het somteken van de derde term is gewoon xG dus de tweede term is gelijk aan xGyG Het somteken van de laatste term is 1, dus de laatste term is gelijk aan xGyG Conclusie: |
||||||||||||||||||||
|
||||||||||||||||||||
Maar eerder (in
deze les)
hadden we voor de variantie
σ2 al de volgende formule afgeleid:
σ2 = E(x2) -
xG2 Je ziet dat de variantie gewoon een speciaal geval van de covariantie is (namelijk als je neemt x = y), Je zou de covariantie daarom kunnen zien als een soort "gemeenschappelijke variantie" van x en y. Logische naam dus.... |
||||||||||||||||||||
Stelling: Als x en y onafhankelijk zijn, dan is σxy = 0 | ||||||||||||||||||||
Bewijs: Voor twee onafhankelijk stochasten x en y geldt: p(x, y) = p(x) • p(y) |
||||||||||||||||||||
|
||||||||||||||||||||
Maar omdat alle x gemiddeld even ver van xG afliggen (dûh: dat is nou juist de definitie van een gemiddelde!) zal die eerste som nul zijn. En op dezelfde manier die tweede som óók. Daar staat dus 0 • 0 = 0 | ||||||||||||||||||||
Correlatiecoëfficiënt r. | ||||||||||||||||||||
Er zit nog één klein
nadeeltje aan deze covariantie. Stel bijvoorbeeld dat je een puntenwolk hebt (of een kansverdeling van twee variabelen) met op de x-as het gewicht (in kg) van een aantal basisschoolkinderen, en op de y-as hun lengte (in cm). Dan heb je een puntenwolk en daarvan zou je de covariantie kunnen uitrekenen om te bekijken in hoeverre die twee dingen (gewicht en lengte) elkaar versterken of met elkaar samenhangen. (Ik verwacht trouwens een positieve covariantie, want het lijkt mij dat langere kinderen gemiddeld ook zwaarder zijn, maar dit terzijde). OK, stel dat we een waarde voor de covariantie hebben gevonden...... Maar als we de lengte van de kinderen in meters in plaats van in centimeters hadden genomen, dan waren alle y-waarden 100 keer zo klein geworden, dus alle (y - yG) ook, dus de covariantie ook! Of als we inches hadden genomen in plaats van centimeters waren ze allemaal 2,54 keer zo klein geworden, dus de covariantie ook. En precies het zelfde geldt bij een andere eenheid voor de gewichten! Zo'n covariantie die nogal afhangt van welke (willekeurige) schaal we hebben genomen is een onbetrouwbaar getal. Zo'n getal zegt niet zoveel. Het zou beter zijn om de covariantie te delen door de "eenheid" van de x-schaal en de "eenheid" van de y-schaal. Dat zou een soort "relatieve covariantie" geven die onafhankelijk is van de gekozen schaal. Hebben we zo'n handige "eenheid" van de schaal? Jazeker! Neem gewoon de standaarddeviatie!! Dat is immers precies het getal dat aangeeft hoe ver de gemeten waarden uit elkaar liggen. Als we de covariantie delen door σx en door σy dan krijgen we een schaalonafhankelijke covariantie en die heet de correlatiecoëfficiënt (r): |
||||||||||||||||||||
|
||||||||||||||||||||
Wil je daar meer over
weten, dan moet je de lessenserie "correlatie en regressie" op
deze site maar bekijken (lessen R8) Het voorbeeld aan het begin heeft (met de GR) σx = 2,3664 en σy = 1,1832 en σxy = 1 dus dat zou geven r = 1/(1,1832 • 2,3664) ≈ 0,36 |
||||||||||||||||||||
uitgebreid slotvoorbeeld. | ||||||||||||||||||||
Iemand gooit met drie
dobbelstenen en telt twee dingen: Z = het aantal zessen en
D = het aantal getallen boven de 3. Laten we de theorieën uit deze les daarop gaan toepassen. De tweedimensionale kansverdeling met bijbehorende tabel zie je hieronder. |
||||||||||||||||||||
|
||||||||||||||||||||
De grootte van de
rode stippen is in overeenstemming met de kans gemaakt. De getallen in
de tabel zijn het aantal keer uit de 216, dus voor de kansen moet je
alles nog door 216 delen. Helemaal rechts en helemaal onder staan
uiteraard gewoon de binomiale verdelingen op aantal zessen/aantal boven
3 (n = 3, p = resp. 1/6
en 1/2) DG = (27 • 0 + 81 • 1 + 81 • 2 + 27 • 3)/216 = 11/2 (maar dat had je via n • p = 3 • 1/2 ook gevonden uiteraard). ZG = (125 • 0 + 75 • 1 + 15 • 2 + 1 • 3)/216 = 1/2 (en dat had je via n • p = 3 • 1/6 ook gevonden uiteraard). Hieronder zie je nogmaals het diagram met nu bij elke stip de bijdrage aan de covariantie (blauw). Let op de stippellijnen die het vlak in vier stukken verdelen en die aangeven waar de bijdrage aan de covariantie positief/negatief is. Het centrale punt is die blauwe stip (11/2, 1/2). |
||||||||||||||||||||
|
||||||||||||||||||||
Dat geeft uit de
tabel: Cov(Z,D) = {0,75 • 27 + 0,25 • 54 + -0,25 • 36 + -0,75 • 8 + -0,25 • 27 + 0,25 • 36 + 0,75 • 12 + 0,75 • 9 + 2,25 • 6 + 3,75 • 1}/216 = 0,2153 Zoals verwacht een positief getal, immers als het aantal zessen groter wordt, zal ook gemiddeld het aantal getallen boven de 3 groter worden. Voor de standaarddeviaties geldt: σZ = 0,6455 en σD = 0,8660 Om eerlijk te zijn heb ik die met mijn GR berekend, maar je kunt natuurlijk ook de formule uit de binomiale verdeling gebruiken (deze les): σ = √(np(1 - p)) Dat geeft σZ = √(3 • 1/6 • 5/6) en σD = √(3 • 1/2 • 1/2) en daar komt ongetwijfeld hetzelfde uit (ik durf het niet te controleren). Voor de correlatiecoëfficiënt geldt tenslotte: r = (0,2153)/(0,8660 • 0,6455) ≈ 0,38 |
||||||||||||||||||||
OPGAVEN | ||||||||||||||||||||
1. | Twee stochasten x en y hebben de volgende gezamenlijke verdeling: | |||||||||||||||||||
|
||||||||||||||||||||
a. | Bereken σxy en r | |||||||||||||||||||
b. | Zijn x en y afhankelijk of onafhankelijk? | |||||||||||||||||||
2. | Iemand gooit met 4
dobbelstenen en telt het aantal even getallen (E) en ook het aantal
vieren (V) Maak hiervan een kansverdeling en bereken de covariantie en de correlatiecoëfficiënt. |
|||||||||||||||||||
© h.hofstede (h.hofstede@hogeland.nl) |