© h.hofstede (h.hofstede@hogeland.nl)

Voorspellingen.
 
Als we aan de hand van een puntenwolk een regressielijn van x op y hebben opgesteld, dan kunnen we die lijn natuurlijk gebruiken om van nieuwe x-waarden de bijbehorende y te voorspellen. (We zagen al eerder dat het regressie-effect er daarbij voor zorgt dat extremen waarden een voorspelling opleveren die "meer naar het gemiddelde" toe ligt.).
De vraag is nu eigenlijk:
 
Hoe betrouwbaar zijn die voorspellingen?

 

Het zal je hopelijk intussen duidelijk zijn dat bij hoge (positieve of negatieve) correlatie, de voorspellingen betrouwbaar zijn, en bij lage correlatie onbetrouwbaar. Bij hoge correlatie liggen de gemeten punten bijna op een rechte lijn, en zal de voorspelling daar waarschijnlijk ook weinig van afwijken.

Maar hoe goed is nou zo'n voorspelling?
Hóe hangt de nauwkeurigheid van r af?
Welke afwijkingen van de voorspelling zijn te verwachten?

Allemaal vragen waarvan het antwoord in de residuen di terug is te vinden.
Dat waren die blauwe afwijkinkjes in de figuur hiernaast. Als die groot zijn, is de voorspelling onnauwkeurig, als ze klein zijn nauwkeurig.
Daarom wordt als maat voor de betrouwbaarheid van de voorspelling de standaardafwijking van deze residuen genomen. Die geeft immers goed de spreiding van de residuen aan.

   

fout in voorspelling  =  standaardafwijking van de residuen.

   
Die schattingsfout noemen we σd (de standaardafwijking van de residuen).
Die is gelukkig erg makkelijk te berekenen:
d = y - (ax + b) = y - ax - dus  d + ax + b = y
Om de standaarddeviatie te berekenen moet je de kwadraten van de afzonderlijke standaarddeviaties optellen:
σd2 + σax2  + σb2 = σy2 
Maar omdat a en b constanten zijn is  σax = a× σx  en is  σb = 0
Dus  σd2 + a2 × σx2 = σy2    ofwel   σd2 =  σy2  -  a2 × σx2
Als je dat combineert met de eerder gevonden vergelijking  a = r × σy/σx  dan geeft dat:
en daaruit volgt dan eenvoudig:  

   
Kortom de gevonden voorspelde waarde is normaal verdeeld met als gemiddelde de y-waarde op de regressielijn, en als standaarddeviatie σd. (dit alles nog onder de stilzwijgende aannames dat de residuen "willekeurig"  ofwel "normaal verdeeld" zijn, hieronder gaan we daar dieper op in....).
Als dat zo is, dan kunnen we met de normale verdeling wel weer uitrekenen hoe groot de kans is dat de werkelijke waarde tussen bepaalde grenzen zal liggen.
 
voorbeeld.

Een puntenwolk heeft  xgem = 12  met σx = 4.0  en  ygem = 20 met  σy = 6.2  en r = 0,8
Hoe groot is de kans dat een nieuw punt in deze wolk met x = 14  een  y heeft die groter is dan 24?

a = r × σy/σx = 0.8 × 6.2/4.0 = 1,24   en de regressielijn gaat door  (12, 20) 
dus  20 = 1,24
× 12 + b    b = 5,12.
De regressielijn is  y
= 1,24x + 5,12
De voorspelling voor x = 14 is dan  y = 1,24 × 14 + 5,12 = 22,48
Voor de standaarddeviatie geldt  σd =  6,2 (1 - 0,82) = 3,72
De kans op meer dan 24 is dan  normalcdf(24, ∞ , 22.48, 3.72) =  0,3414
   
Scedasticiteit.  
   
Ik heb, om eerlijk te zijn, bij de afleiding van de formule voor σd stiekem iets verzwegen......
Het zit hem in die regel waar ik voor de berekening van s, de kwadraten optelde:  σd2 + σax2  + σb2 = σy2 
Maar dat geldt alleen als de variabelen onafhankelijk van elkaar zijn!!!!!
Dus dat gaat ervan uit dat σd voor elke x hetzelfde is.

Het gaat er eigenlijk van uit dat de y-waarden bij een bepaalde x elke keer normaal verdeeld zijn met dezelfde standaarddeviatie.

Zoiets als in de figuur hiernaast.....

Die mini-klokvormpjes geven de verdeling van alle y-waarden bij een bepaalde x aan. Scedasticiteit betekent "verspreiding"  en we noemen een puntenwolk homoscedastisch  als de spreiding in de y-waarden overal gelijk is (dan hebben alle klokvormpjes hiernaast dezelfde standaarddeviatie). Als dat niet het geval is, heet zo'n puntenwolk heteroscedastisch, en in dat geval mag je de formule voor σd hierboven NIET gebruiken!
   
Het komt regelmatig voor dat de residuen steeds groter worden als x groter worden. Of  juist steeds kleiner. Je ziet dat effect het duidelijkst aan de residuplot. Als de residuen naar één kant toe steeds groter worden dan is er iets verdachts aan de hand...
Hieronder zie je zo'n puntenwolk met bijbehorende residuplot. Aan beiden is eigenlijk wel te zien dat deze puntenwolk heteroscedastisch is.
   

   
Het waaiert naar rechts toe uit, dus dat betekent dat σd  groter wordt als x groter wordt. Hier zul je zeker de bovenstaande formule voor σd niet mogen gebruiken, en kun je daarom weinig zeggen over de betrouwbaarheid van de voorspelling.
   
 Normaal verdeeld?
   
Als de residuen inderdaad "willekeurig" zijn, dan zullen ze normaal verdeeld moeten zijn (met uiteraard gemiddelde μ = 0).  Als dat niet zo is, dan kun je hun standaarddeviatie σd wel uitrekenen, maar daar kun je vervolgens niets mee.
Neem bijvoorbeeld de puntenwolk hieronder.
   

   
Linksboven zie je de puntenwolk met de regressielijn y = 0,35x + 3,33 en correlatiecoëfficiënt r = 0,4. Linksonder staat de bijbehorende residuplot. Maar als je die residuen op normaal waarschijnlijkheidspapier tekent, dan komt daar helemaal geen rechte lijn uit. De residuen zijn dus absoluut niet normaal verdeeld! Residuen zo rond de 0 komen haast niet voor, en tussen de 1 en 2,5 en tussen de -1 en -2,5 juist erg vaak. Het lijkt erop dat we hier te maken hebben met twee aparte populaties
 

Als je bijvoorbeeld van de beide "deelpuntenwolken" hiernaast de correlatiecoëfficiënten uitrekent vind je r = 0,87 voor de bovenste wolk en voor de onderste r = 0,96.





 

   
 
 
  OPGAVEN
   
1.  
       
  a. Toon dat aan.
     
  b.  
       
2.

 

       
  a. Geef een vergelijking van de regressielijn.
       
  b.  
       
       
3.  
       
       
4. Bereken voor de onderstaande tabel de standaarddeviatie van de residuen, σd, op twee manieren.
       
  a. Reken alle residuen uit, zet die in een lijst van je GR en bereken daarna van die lijst de standaarddeviatie.
     
  b. Bereken de correlatiecoëfficiënt r en vervolgens met de formule hierboven de standaarddeviatie van de residuen.
       
   
       
       
5.  
       
  a. Hoe groot was de correlatiecoëfficiënt van dit onderzoek?
     
  b.  
       
  c.  
       
   
 

© h.hofstede (h.hofstede@hogeland.nl)