/
 
Determinatiecoëfficiënt.

© h.hofstede (h.hofstede@hogeland.nl)

   
Een bijkomend probleem bij het interpreteren van de correlatiecoëfficiënt is de vraag of een twee keer zo grote r ook een twee keer zo goede correlatie betekent. Dat is niet zo!

Om dat te bekijken gaan we twee variaties bekijken:

Variatie 1:   Schommeling rond het gemiddelde
Als er helemaal geen verband zou bestaan tussen x en y  dan zouden alle y-waarden zomaar wat lukraak schommelen rond hun gemiddelde.

Dit getal geeft dus aan hoeveel de punten in y-richting schommelen rond hun gemiddelde.

Variatie 2:   Residuen.
Mét het regressiemodel is de som van de variatie van alle punten t.o.v. de regressielijn natuurlijk gelijk aan de som van de residuen. Dat zal een kleiner getal zijn dan die totale variatie rond het gemiddelde hierboven, omdat we immers het kwadraat van al die residuen hebben geminimaliseerd toen we regressielijn opstelden.

Het verschil tussen deze beide variaties is het deel van de totale variatie dat door het regressiemodel wordt verklaard. Kijk maar naar dit kleine getallenvoorbeeldje met een puntenwolk van vier punten.
De regressielijn hiervan was de lijn  y = 0,2x + 2,5 en het centrale punt is  (2.5, 3)
   
xi yi totale variatie2
residu2
   
1 3 0 0,09
2 2 1 0,81
3 4 1 0,81
4 3 0 0,09

Σ

2 1,8
   
Van de totale variatie van 2 wordt 0,2 door het regressiemodel verlaagd, en 1,8 blijft over (nog steeds ook in het regressiemodel een afwijking). We definiëren nu de determinatiecoëfficiënt  R² als het deel van de totale variatie dat door het regressiemodel wordt verminderd:
   

   
In ons getallenvoorbeeld is  R² = 0,2/2 = 0,10. Dat is niet bijster goed; slechts 10% van de variaties van de y-waarden wordt weggewerkt door het regressiemodel. In formule zou R² er dan natuurlijk zó uitzien:
   
En het mooie van deze R² is dat hij voor élk model geldt, niet alleen het lineaire! Bij de afleiding is nergens gebruikt dat de regressielijn lineair moet zijn.
Die R² heet trouwens niet voor niets R²......
De letter R is weer gebruikt omdat bij lineaire regressie R² gelijk is aan onze ouwe bekende r² (die R² heet ook wel de lineaire determinatiecoëfficiënt). Het bewijs daarvan staat hiernaast.
 
Met deze R2 kun je bijvoorbeeld ook onderzoeken welk model nou het best past bij een puntenwolk. 
   
Andere regressiemodellen.
   
Als je om de één of andere reden vermoedt dat een rechte lijn niet het best bij jouw puntenwolk past, dan kun je met de GR ook andere regressiemodellen toepassen.
Je vindt ze allemaal onder STAT - CALC -
Hiernaast zie je de hele lijst.
We zullen de belangrijksten bespreken, maar dat doen we in twee groepen.
 

Groep 1.
4:  LinReg (ax + b)
9:  LnReg  (a + b • lnx)
0:  ExpReg (a • bx)
A: PwrReg (a • xb)
Groep 2.
5:  QuadReg (ax2 + bx + c)
6:  CubicReg (ax3 + bx2 + cx + d)
7:  QuartReg  (ax4 + bx3 + cx2 + dx + e)
B:  Logistic( c/(1 + aebx) )
C:  SinReg (a • sin(bx + c) + d)
   
Tussen haakjes staat steeds wat voort soort formule je GR bij deze lijsten verzint.
Zie je de overeenkomsten en de verschillen tussen deze twee groepen?

Het zit hem erin, dat in groep 1 in al die formules TWEE constanten a en b staan, en bij de formules uit groep 2 méér constanten. De formules uit groep 1 zijn in wezen lineaire regressie formules.

Als je lijst L1 voor x hebt en  lijst L2 voor y, en je wilt de formule y = a + b • lnx opstellen, dan kun je die lijst met x-waarden vervangen door een nieuwe lijst L3 met daarin X = lnx. Immers dan geldt  y = a + b • X en kun  je gewoon lineaire regressie tussen L3 en L2 toepassen.

Zo kun je y = a •  bx  schrijven als  lny = lna + xlnb, dus als je neemt Y = lny dan staat daar Y = A + x • B en kun je weer met lineaire regressie A (lna) en B (lnb) berekenen.
Tenslotte bij y = axb  staat er lny = lna + blnx  dus dan neem je de nieuwe lijsten  Y = lny en X = lnx en dan staat er
Y = A + b • X.  Lineaire regressie levert je A (lna) en b.

In al deze gevallen vind je dus een lineaire correlatiecoëfficiënt  r en een lineaire determinatiecoëfficiënt  R² .
   
Bij groep 2 is dat anders. Daar staan meer constanten in de formules. De regressie is niet meer lineair, en je kunt het niet meer hebben over de correlatiecoëfficiënt r. Alleen de determinatiecoëfficiënt   bestaat nog wel, en geeft aan hoe goed het model past bij de puntenwolk.
   
Welk model kiezen we?  
   
Tja, dat is lastig.
Wiskundigen vinden een eenvoudiger model in principe ook mooier, dus zullen al gauw kiezen voor een model uit groep 1.
Hoe meer constanten in de formule, hoe "lelijker" het model.
Maar ja, we willen ook graag een R² die zo dicht mogelijk bij 1 ligt.  Meestal "proberen" we een paar modellen, en alleen als modellen met meer constanten een spectaculaire verbetering van R² geven zullen we daarvoor kiezen.

voorbeeld.
Neem de volgende tabel met punten en de bijbehorende puntenwolk ernaast.  
   
x 1 1.5 2 2 2 2.5 3 3.5 4 4 4.5 5 5.5 6 6.5 7 7.5 7.5 8 9 9 9.5 9.5 10 10
y 1 2 2 3 3.5 4 4.5 5 4 5 5 4.5 4 3.5 3 3 2 2.5 3 2.5 5 4 6 5 8.5
   
Hieronder staan zeven modellen die we hebben geprobeerd:
   

   
Als we voor het simpelste model zouden kiezen (eentje uit de bovenste rij: groep 1) dan zouden we kiezen voor  PwrReg met r² = 0,26. In de onderste rij geeft echter CubicReg een spectaculaire verbetering naar R² = 0,74.
QuarticReg is nóg ietsje beter, maar niet erg veel, en het is wél een hele constante extra. 
De keuze valt daarom waarschijnlijk op CubicReg:  
 y = 0,07x3 - 1,24x2  + 6,11x - 4,62

Hiernaast zie je hoe geweldig goed die past bij de puntenwolk!

   
  OPGAVEN
   
1. Leg uit waarom je zeker weet dat QuadReg altijd een grotere R² geeft dan  LinReg,  en  CubicReg altijd een grotere R² dan QuadReg, en  QuartReg weer altijd een grotere R² dan CubicReg.
       
2. Leg uit waarom CubicReg bij een puntenwolk van 4 punten altijd R² = 1 oplevert.
Hoe is dat met  LinReg en QuadReg en QuartReg?
Hoeveel punten zouden er dan moeten zijn om R² = 1 op te leveren?
       
3. Zoek uit welk model het best past bij de volgende tabel.
       
 
x 1 1 2 2 3 3 4 5 6 6 7 9 9 10 11 12 12
y 2 4 4 5 4 5 6 8 6 8 9 7 8 8 7 6 5
       
4. Hiernaast zie je een puntenwolk(je).

     
  a. Probeer aan de hand van de vorm van deze puntenwolk te raden welk model het best bij deze wolk zou passen.
     
  b. Controleer met je GR je antwoord op vraag a).
     
       
5. Paulien heeft de volgende tabel gevonden door bij 10 x-waarden de bijbehorende y te meten:
       
 
x 0 1 2 3 4 5 6 7 8 9 10
y 242 205 164 123 105 86 64 52 44 34 27
       
  Zij vermoedt door de vorm van de puntenwolk dat hier sprake is van exponentiële afname.
Laat zien dat  ExpReg met deze x-y waarden  precies dezelfde vergelijking geeft als LinReg met  lny in plaats van y waarbij de x-waarden gelijk zijn gebleven.
       
6. De afkoelingswet van Newton zegt dat voor een voorwerp met temperatuur T0, dat op tijdstip t = 0 in een omgevingstemperatuur O wordt geplaatst, geldt:   T(t) = ae-kt + O
       
  a. Leg uit dat deze formule ook te schrijven is als  T(t) = abt + O
       
  Voor een omgevingstemperatuur van 20ºC geldt  T(t) = abt + 20
Een onderzoeker meet de volgende tabel voor T en t:
       
 
t 0 1 2 3 4 5 6 7 8 9 10
T 68 66 61 54 50 48 48 45 40 38 37
       
  Met het eerste en laatste punt uit deze tabel kan de onderzoeker a en b bepalen.
Hij doet dat en vindt afgerond  a = 48 en b 0,9014
       
  b. Laat zien hoe hij aan die waarden komt.
       
  c. Bereken de som van het kwadraat van de residuen bij deze formule voor T(t)
     

25,83

  Als je de formule verandert in  T(t) - 20 = a • bt   kun je uit een tabel van  T - 20  en t ook via regressie de constanten a en b vinden.
       
  d. Voer die regressieanalyse uit, en geef een vergelijking voor T(t).
     

T = 49,2 • 0898t + 20

  e. Bereken hoeveel procent de som van het kwadraat van de residuen door deze tweede methode is gedaald vergeleken met de eerste methode.
     

22,99 dus 11%

       
7. Hieronder zie je van een aantal regelmatige veelhoeken met zijden  1 de straal van de omgeschreven cirkel (dat is de cirkel die er precies omheen past en door alle hoekpunten gaat). Hiernaast zie je die cirkel bij het vierkant.

     
 
zijden 3 4 5 6 7 8 9 10 11
straal 0,577 0,707 0,851 1,000 1,152 1,306 1,462 1,618 1,775
     

  Een plot daarvan zie je hiernaast. Het lijkt  alsof een lineair model dit verband uitstekend beschrijft. Als je de correlatiecoëfficiënt berekent, dan komt er inderdaad  r = 0,9997 uit. Uitstekend dus!
Maar toch….
       
  a. Teken een residuplot van deze gegevens. Neem window Ymin = -0,02 en Ymax = 0,02.
Leg uit hoe je aan deze residuplot kunt zien dat lineaire regressie toch waarschijnlijk niet de beste methode is
       
  b. Onderzoek met de determinatiecoëfficiënten welke soort regressie de beste is
       
8.

Het verband tussen spanning U en stroom I bij een niet-Ohmse weerstand wordt gegeven door U = C • Iβ  (U gemeten in Volt en I in ampère),  met C en β materiaalconstanten. Concrete metingen van U (in V) en I (in mA) levert de volgende resultaten :

       
 
Ii 5 6 7 8 9 10 11 12 13 14 15 16
Ui 6,90 7,14 7,35 7,53 7,70 7,82 7,97 8,08 8,17 8,27 8,38 8,45
       
 
Ii 17 18 19 20 21 22 23 24 25 26 27 28
Ui 8,52 8,58 8,66 8,72 8,77 8,80 8,88 8,93 8,97 9,00 9,04 9,12
       
 

Bepaal de beste waarden voor C en β aan de hand van deze meetwaarden. Ga na dat de TI-83 deze waarden berekent met een logaritmische transformatie van de data en lineaire regressie.

       
 

© h.hofstede (h.hofstede@hogeland.nl)