|
|
Determinatiecoëfficiënt. |
©
h.hofstede (h.hofstede@hogeland.nl) |
|
|
|
Een bijkomend
probleem bij het interpreteren van de correlatiecoëfficiënt is de vraag
of een twee keer zo grote r ook een twee keer zo goede correlatie
betekent. Dat is niet zo!
Om dat te bekijken gaan we twee variaties bekijken:
Variatie 1: Schommeling rond het gemiddelde
Als er helemaal geen verband zou bestaan tussen x en
y dan zouden alle y-waarden zomaar wat lukraak
schommelen rond hun gemiddelde.
Dit getal geeft dus aan hoeveel de punten in y-richting
schommelen rond hun gemiddelde.
Variatie 2: Residuen.
Mét het regressiemodel is de som van de variatie van alle punten t.o.v.
de regressielijn natuurlijk gelijk aan de som van de residuen. Dat zal
een kleiner getal zijn dan die totale variatie rond het gemiddelde
hierboven, omdat we immers het kwadraat van al die residuen hebben
geminimaliseerd toen we regressielijn opstelden.
Het verschil tussen deze beide variaties is het deel van de totale
variatie dat door het regressiemodel wordt verklaard. Kijk maar naar dit
kleine getallenvoorbeeldje met een puntenwolk van vier punten.
De
regressielijn hiervan was de lijn y = 0,2x + 2,5 en
het centrale punt is (2.5, 3) |
|
|
xi |
yi |
totale variatie2
|
residu2 |
|
|
1 |
3 |
0 |
0,09 |
2 |
2 |
1 |
0,81 |
3 |
4 |
1 |
0,81 |
4 |
3 |
0 |
0,09 |
Σ |
2 |
1,8 |
|
|
|
Van de totale variatie van 2
wordt 0,2 door het regressiemodel verlaagd, en 1,8 blijft over (nog
steeds ook in het regressiemodel een afwijking). We definiëren nu de
determinatiecoëfficiënt R² als het deel van de
totale variatie dat door het regressiemodel wordt verminderd: |
|
|
|
|
|
In ons getallenvoorbeeld is
R² = 0,2/2 = 0,10. Dat is niet bijster
goed; slechts 10% van de variaties van de y-waarden wordt
weggewerkt door het regressiemodel. In formule zou R² er dan
natuurlijk zó uitzien: |
|
|
|
En het mooie van deze R²
is dat hij voor élk model geldt, niet alleen het lineaire! Bij de
afleiding is nergens gebruikt dat de regressielijn lineair moet zijn.
Die R² heet trouwens niet
voor niets R²......
De letter R is weer gebruikt omdat bij lineaire regressie
R²
gelijk is aan onze ouwe bekende r² (die
R²
heet ook wel de lineaire determinatiecoëfficiënt). Het
bewijs daarvan staat hiernaast. |
|
|
Met deze R2 kun je
bijvoorbeeld ook onderzoeken welk model nou het best past bij een
puntenwolk. |
|
|
Andere regressiemodellen. |
|
|
Als je om de één of
andere reden vermoedt dat een rechte lijn niet het best bij jouw
puntenwolk past, dan kun je met de GR ook andere regressiemodellen
toepassen.
Je vindt ze allemaal onder
STAT -
CALC -
Hiernaast zie je de hele lijst.
We zullen de belangrijksten bespreken, maar dat doen we in twee groepen.
|
|
Groep 1.
4: LinReg (ax + b)
9: LnReg (a + b • lnx)
0: ExpReg (a • bx)
A: PwrReg (a • xb) |
Groep 2.
5: QuadReg (ax2 + bx + c)
6: CubicReg (ax3 + bx2 + cx
+ d)
7: QuartReg (ax4 + bx3 +
cx2 + dx + e)
B: Logistic( c/(1 + a • ebx)
)
C: SinReg (a • sin(bx + c) + d) |
|
|
Tussen haakjes staat steeds wat
voort soort formule je GR bij deze lijsten verzint.
Zie je de overeenkomsten en de verschillen tussen deze twee groepen?
Het zit hem erin, dat in groep 1 in al die formules TWEE constanten a
en b staan, en bij de formules uit groep 2 méér constanten. De
formules uit groep 1 zijn in wezen lineaire regressie formules.
Als je lijst L1 voor x hebt en lijst L2 voor y, en
je wilt de formule y = a + b • lnx
opstellen, dan kun je die lijst met x-waarden vervangen door een
nieuwe lijst L3 met daarin X = lnx. Immers dan geldt y
= a + b • X en kun je gewoon lineaire
regressie tussen L3 en L2 toepassen.
Zo kun je y = a • bx schrijven als
lny = lna + xlnb, dus als je neemt Y = lny
dan staat daar Y = A + x • B en kun je weer met lineaire
regressie A (lna) en B (lnb) berekenen.
Tenslotte bij y = a • xb staat er
lny = lna + blnx dus dan neem je de
nieuwe lijsten Y = lny en X = lnx en dan staat er
Y = A + b • X. Lineaire regressie levert je A (lna)
en b.
In al deze gevallen vind je dus een lineaire correlatiecoëfficiënt
r en een lineaire determinatiecoëfficiënt R²
. |
|
|
Bij groep 2 is dat anders. Daar
staan meer constanten in de formules. De regressie is niet meer lineair,
en je kunt het niet meer hebben over de correlatiecoëfficiënt r. Alleen
de determinatiecoëfficiënt R² bestaat nog wel,
en geeft aan hoe goed het model past bij de puntenwolk. |
|
|
Welk model kiezen we? |
|
|
|
Tja, dat is lastig.
Wiskundigen vinden een eenvoudiger model in principe ook mooier, dus
zullen al gauw kiezen voor een model uit groep 1.
Hoe meer constanten in de formule, hoe "lelijker" het model.
Maar ja, we willen ook graag een R²
die zo dicht mogelijk bij 1 ligt. Meestal "proberen" we een paar
modellen, en alleen als modellen met meer constanten een spectaculaire
verbetering van R²
geven zullen we daarvoor kiezen.
voorbeeld. |
Neem de volgende tabel met punten
en de bijbehorende puntenwolk ernaast. |
|
|
|
x |
1 |
1.5 |
2 |
2 |
2 |
2.5 |
3 |
3.5 |
4 |
4 |
4.5 |
5 |
5.5 |
6 |
6.5 |
7 |
7.5 |
7.5 |
8 |
9 |
9 |
9.5 |
9.5 |
10 |
10 |
y |
1 |
2 |
2 |
3 |
3.5 |
4 |
4.5 |
5 |
4 |
5 |
5 |
4.5 |
4 |
3.5 |
3 |
3 |
2 |
2.5 |
3 |
2.5 |
5 |
4 |
6 |
5 |
8.5 |
|
|
|
|
Hieronder staan zeven modellen
die we hebben geprobeerd: |
|
|
|
|
|
Als we voor het simpelste model
zouden kiezen (eentje uit de bovenste rij: groep 1) dan zouden we kiezen
voor PwrReg met r² = 0,26. In de onderste rij
geeft echter CubicReg een spectaculaire verbetering naar R² =
0,74.
QuarticReg is nóg ietsje beter, maar niet erg veel, en het is wél een
hele constante extra. |
De keuze valt daarom
waarschijnlijk op CubicReg:
y = 0,07x3
- 1,24x2 + 6,11x - 4,62
Hiernaast zie je hoe geweldig goed die past bij de puntenwolk! |
|
|
|
OPGAVEN |
|
|
1. |
Leg uit waarom je zeker weet dat QuadReg altijd
een grotere R² geeft dan LinReg, en
CubicReg altijd een grotere R² dan QuadReg, en
QuartReg weer altijd een grotere R² dan CubicReg. |
|
|
|
|
2. |
Leg uit waarom CubicReg
bij een puntenwolk van 4 punten altijd R² = 1
oplevert.
Hoe is dat met LinReg en QuadReg en QuartReg?
Hoeveel punten zouden er dan moeten zijn om R²
= 1 op te leveren? |
|
|
|
|
3. |
Zoek uit welk model het best past
bij de volgende tabel. |
|
|
|
|
|
x |
1 |
1 |
2 |
2 |
3 |
3 |
4 |
5 |
6 |
6 |
7 |
9 |
9 |
10 |
11 |
12 |
12 |
y |
2 |
4 |
4 |
5 |
4 |
5 |
6 |
8 |
6 |
8 |
9 |
7 |
8 |
8 |
7 |
6 |
5 |
|
|
|
|
|
4. |
Hiernaast zie je een
puntenwolk(je). |
|
|
|
|
|
a. |
Probeer aan de hand van de vorm van
deze puntenwolk te raden welk model het best bij deze wolk zou
passen. |
|
|
|
|
b. |
Controleer met je GR je antwoord op vraag a). |
|
|
|
|
|
|
|
5. |
Paulien heeft de volgende tabel
gevonden door bij 10 x-waarden de bijbehorende y
te meten: |
|
|
|
|
|
x |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
y |
242 |
205 |
164 |
123 |
105 |
86 |
64 |
52 |
44 |
34 |
27 |
|
|
|
|
|
|
Zij vermoedt door de vorm van de
puntenwolk dat hier sprake is van exponentiële afname.
Laat zien dat ExpReg met deze x-y waarden
precies dezelfde vergelijking geeft als LinReg met lny
in plaats van y waarbij de x-waarden gelijk zijn
gebleven. |
|
|
|
|
6. |
De afkoelingswet van Newton zegt dat
voor een voorwerp met temperatuur T0, dat op tijdstip
t = 0 in een omgevingstemperatuur O wordt
geplaatst, geldt: T(t) = a • e-kt
+ O |
|
|
|
|
|
a. |
Leg uit dat deze formule ook te
schrijven is als T(t) = a • bt
+ O |
|
|
|
|
|
Voor een omgevingstemperatuur van
20ºC geldt T(t) = a • bt
+ 20
Een onderzoeker meet de volgende tabel voor T en t: |
|
|
|
|
|
t |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
T |
68 |
66 |
61 |
54 |
50 |
48 |
48 |
45 |
40 |
38 |
37 |
|
|
|
|
|
|
Met het eerste en laatste punt uit
deze tabel kan de onderzoeker a en b bepalen.
Hij doet dat en vindt afgerond a = 48 en b
≈ 0,9014 |
|
|
|
|
|
b. |
Laat zien hoe hij aan die waarden
komt. |
|
|
|
|
|
c. |
Bereken de som van het kwadraat van
de residuen bij deze formule voor T(t) |
|
|
|
|
|
Als je de formule verandert in
T(t) - 20 = a • bt
kun je uit een tabel van T - 20 en t
ook via regressie de constanten a en b vinden. |
|
|
|
|
|
d. |
Voer die regressieanalyse uit, en
geef een vergelijking voor T(t). |
|
|
|
|
|
e. |
Bereken hoeveel procent
de som van het kwadraat van de residuen door deze tweede methode
is gedaald vergeleken met de eerste methode. |
|
|
|
|
|
|
|
|
7. |
Hieronder zie je van een aantal regelmatige veelhoeken met
zijden 1 de straal van de omgeschreven cirkel (dat is de cirkel
die er precies omheen past en door alle hoekpunten gaat).
Hiernaast zie je die cirkel bij het vierkant. |
|
|
|
|
|
zijden |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
straal |
0,577 |
0,707 |
0,851 |
1,000 |
1,152 |
1,306 |
1,462 |
1,618 |
1,775 |
|
|
|
|
|
|
Een plot daarvan zie je hiernaast.
Het lijkt alsof een lineair model dit verband uitstekend
beschrijft. Als je de correlatiecoëfficiënt berekent, dan komt
er inderdaad r = 0,9997 uit. Uitstekend dus!
Maar toch…. |
|
|
|
|
|
a. |
Teken een residuplot van deze gegevens. Neem window Ymin = -0,02
en Ymax = 0,02.
Leg uit hoe je aan deze residuplot kunt zien dat lineaire
regressie toch waarschijnlijk niet de beste methode is |
|
|
|
|
|
b. |
Onderzoek met de determinatiecoëfficiënten welke soort regressie
de beste is |
|
|
|
|
8. |
Het verband tussen spanning U en stroom I bij een
niet-Ohmse weerstand wordt gegeven door
U
= C
• Iβ
(U gemeten in Volt en I in ampère),
met C en
β
materiaalconstanten. Concrete metingen van U (in V) en I (in mA)
levert de volgende resultaten :
|
|
|
|
|
|
Ii |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
Ui |
6,90 |
7,14 |
7,35 |
7,53 |
7,70 |
7,82 |
7,97 |
8,08 |
8,17 |
8,27 |
8,38 |
8,45 |
|
|
|
|
|
|
Ii |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
Ui |
8,52 |
8,58 |
8,66 |
8,72 |
8,77 |
8,80 |
8,88 |
8,93 |
8,97 |
9,00 |
9,04 |
9,12 |
|
|
|
|
|
|
Bepaal de beste waarden voor C en
β
aan de hand van deze
meetwaarden. Ga na dat de
TI-83
deze waarden berekent met
een logaritmische transformatie van de data en lineaire regressie.
|
|
|
|
|
|
|
|
©
h.hofstede (h.hofstede@hogeland.nl) |
|