Causaliteit.

© h.hofstede (h.hofstede@hogeland.nl)

   
Je moet goed bedenken dat we bij het berekenen van de correlatiecoëfficiënt alleen wiskundig vaststellen of er een correlatie is tussen twee variabelen. Daarbij wordt niets gezegd over wat nou de oorzaak is, en wat het gevolg. Dat kun je al wel zien aan de correlatiecoëfficiënt r: daar komen x en y symmetrisch in voor.

Alleen bij het berekenen van de regressielijn hebben we aangenomen dat x de ooraak is, en y het gevolg. Dat noemen we een causaal verband tussen x en y.
Maar daarbij moet je erg uitkijken. De superveilige stap van "er is een correlatie" naar de zeer riskante bewering "er is een causaal verband" is een stap van de wiskunde naar niet-wiskunde, en daarmee erg onbetrouwbaar en gevaarlijk om  te maken.
Glad ijs!!!

Dit zijn de twee meest gemaakte fouten.

   
Blunder 1. Oorzaak en Gevolg
   
Als je een (redelijk) grote correlatie tussen twee dingen hebt gevonden, dan kun je nog niet weten welke nou de oorzaak is, en welke het gevolg.
Neem bijvoorbeeld het onderzoek naar de hoeveelheid hashgebruik en het IQ een paar jaar later (uit de vorige les). Daar vonden we de puntenwolk hiernaast met maar liefst een r = -0,90.
De conclusie lijkt opgelegd:
 
Van veel hash gebruiken gaat je IQ omlaag!!
 

Maar dat mag niet zomaar!!!
Die r was immers symmetrisch in x en y! Als we de assen omdraaien  vinden we dezelfde r!! Je zou net zo goed kunnen concluderen:
   

"Met een hoog IQ ga je minder hash gebruiken"
of
"Met een laag IQ ga je eerder veel hash gebruiken"

   
Beide conclusies volgen net zo goed uit het onderzoek, en verklaren net zo goed de gevonden correlatie.
   
   
1. In het hash-onderzoek hierboven is er wel het voordeel dat er een tijdverschil is. We hebben immers het hashgebruik op een bepaald moment uitgezet tegen het IQ een aantal jaar later. Als het IQ een oorzaak is van het hashgebruik, dan zou er een sterke correlatie gevonden moeten worden als we het IQ van een bepaald moment zouden uitzetten tegen het hashgebruik een paar jaar later.
Doe dat met de gegevens van de vorige les, en bereken opnieuw de correlatiecoëfficiënt.
Welk conclusie wordt hierdoor waarschijnlijker?
       
       
2. Hieronder zie je  zeven  krantenkoppen naar aanleiding van gevonden grote correlatiecoëfficiënten. 
Welke conclusies zouden in deze gevallen wiskundig net zo goed gerechtvaardigd zijn?
       
 
       
3. Een onderzoeksbureau onderzocht in opdracht van tabaksfabrikant Van Nelle van een groot aantal oudere mensen hoeveel men rookte, en ook hoe vaak men nog seks met elkaar had. Men vond een grote positieve correlatie. Van Nelle was blij, en kon trots de volgende "wetenschappelijk bewezen" gegevens publiceren:
 
Roken goed voor de potentie!
 

Welke conclusie had men net zo goed kunnen publiceren?

       
       
Blunder 2.  De derde factor
   
De foute conclusies hierboven waren nog vrij eenvoudig op te sporen. Het ging maar om twee keuzes voor oorzaak en gevolg. Maar soms ligt de zaak wat moeilijker. Soms spelen er meer factoren mee.

Een voorbeeld zal een boel duidelijk maken. En helaas ook een boel onduidelijk.....

Stel je voor dat medische onderzoekers een aantal jaren lang bij een grote groep mensen over het hele land verspreid bekijken hoeveel gevallen van polio er zijn in een bepaalde periode, en dat in een grafiek uitzetten tegen de hoeveelheid frisdank die men gemiddeld per dag in die periode dronk. Stel dat dat de volgende tabel oplevert;
   
F 0,50 1,60 2,05 1,00 1,10 0,85 1,50 1,65 0,85 0,70 1,00 1,90 2,20 1,30 2,00
P 1,25 3,10 3,00 1,80 2,30 1,75 2,60 2,70 0,85 1,25 1,25 3,10 2,75 1,55 2,60
F 0,72 1,10 0,70 1,30 2,00 1,90 1,70 1,30 0,55 1,05 0,90 1,30 2,30 1,20 1,60
P 1,25 1,55 1,50 1,95 3,40 2,75 2,35 2,70 0,75 1,75 1,50 2,05 3,50 1,80 2,10
   
Een brij van getallen....

Daarvan is dan eenvoudig het alles-onthullende grafiekje hiernaast te maken.

Wie hier niet de duidelijk stijgende tendens ziet is blind natuurlijk!
De conclusie is overduidelijk: hoe meer frisdrank men gebruikt, des te meer gevallen van polio.

Laten we er maar meteen een verontrustende krantenkop tegenaan gooien:

 
FRISDRANK VERHOOGT KANS OP POLIO!
 

(Als je het bovenstaande hebt gelezen, kon de conclusie kon net zo goed zijn "Van polio krijg je dorst" natuurlijk, maar daar letten we even niet op. Er is een veel sterker effect gaande....) 
Ondanks de duidelijk stijgende puntenwolk slaat deze conclusie toch helemaal nergens op, en dat komt door de aanwezigheid van een zogenaamde "derde factor". 
Laten we de tabel hierboven aanvullen met een derde rij die de gemiddelde temperatuur in de meetperiode weergeeft:
   
F 0,50 1,60 2,05 1,00 1,10 0,85 1,50 1,65 0,85 0,70 1,00 1,90 2,20 1,30 2,00
P 1,25 3,10 3,00 1,80 2,30 1,75 2,60 2,70 0,85 1,25 1,25 3,10 2,75 1,55 2,60
T 20 24 25 22 22 21 23 23 20 20 21 24 25 22 24
F 0,72 1,10 0,70 1,30 2,00 1,90 1,70 1,30 0,55 1,05 0,90 1,30 2,30 1,20 1,60
P 1,25 1,55 1,50 1,95 3,40 2,75 2,35 2,70 0,75 1,75 1,50 2,05 3,50 1,80 2,10
T 21 22 21 23 25 25 24 23 20 21 20 22 25 22 23
   
Grafieken van P tegen T en van F tegen T zien er zó uit:
   

   
Wat blijkt: zowel F als P hebben een positieve correlatie met T. Dat is vast te verklaren: als het warm is drinken de mensen meer frisdrank, en als het warm is zal de polio-bacterie zich sneller vermenigvuldigen. F en P hebben dus met elkaar niets te maken; kijk maar naar de volgende grafiekjes van F tegen P bij bepaalde vaste temperatuur (uit dezelfde gegevens):
   

   

Van die stijgende tendens is niets meer over.
Er is dus een derde factor (T) waarmee beiden positief correleren. En zonder die extra T-rij in de tabel waren we daar nooit opgekomen. Ofwel: zo'n vervelende derde factor kan eigenlijk ALTIJD ergens verborgen op de loer liggen!!!!! Heel frustrerend; je kunt pas conclusies trekken als ALLE andere factoren gelijk zijn.

Maar ja, .....wat zijn ALLE....?  Het is om paranoïde van te worden! Kunnen we ooit nog wel een conclusie over causaliteit trekken?

   
Een mooi artikel uit de Volkskrant van wetenschapsjournalist Hans van Maanen over dit onderwerp (en nog meer wiskundig interessante onderwerpen trouwens) kun je vinden op    http://www.vanmaanen.org/hans/columns/borstenlinks.html
   
In de verdieping hiernaast kun je vinden hoe je in het geval van drie zulke factoren die elkaar beïnvloeden toch iets kunt zeggen over welke invloed wat nou op wat heeft....
 
   
4. Stel dat er een superdrankje wordt gevonden dat de kans op hartinfarcten drastisch vermindert. Dat betekent dat er een sterk negatieve correlatie zal zijn tussen het totaal aantal hartinfarcten in een gebied en het gebruik van dat superdrankje.
Maar als je dan een puntenwolk maakt van het aantal doden door kanker en het gebruik van dat superdrankje, dan zal daar een positieve correlatie te vinden zijn.
       
  a. Leg uit welke derde factor hier een rol speelt.  
   
de gemiddelde levensduur
  b. Licht de uitspraak "elk goed geneesmiddel tegen een ziekte correleert positief met een andere ziekte" toe.
       
5. Wat zou een derde factor kunnen zijn in de volgende gevonden correlaties?
       
  a. De woordenschat en schoenmaat van middelbare school leerlingen correleren sterk positief.
   

de leeftijd

  b. Er is een negatieve correlatie te vinden tussen de verkoop van tulpenbollen en van zwembroeken.
   

het jaargetijde

  c. Er is een negatieve correlatie tussen de hoogte waarop een schaatsbaan ligt en de gereden baanrecords.
   

de luchtdruk

  d. Er is een positieve correlatie tussen hoeveel restaurants iemand bezoekt en hoeveel schilderijen hij koopt.
   

het inkomen

  e. Er is een positieve correlatie tussen het aantal auto´s en het aantal computers in verschillende landen.
     

aantal inwoners

  f. Er is een negatieve correlatie tussen het aantal zwart-wit TV´s en het aantal computers in ons land.
     

het jaartal

       
6. Hieronder vind je in één tabel de eigenschappen A, B, C en D die bij een aantal proefpersonen zijn gemeten.
Leg uit welke (positieve of negatieve) correlaties er te vinden zijn, en leg ook uit welke eigenschap in die gevallen een derde factor zou kunnen zijn.
       
 
 

proefpersoon

a b c d e f g h i j k l
A 1,2 3,0 2,9 4,4 5,2 5,2 6,0 6,9 8,1 7,4 9,1 9,9
B 40 36 27 31 33 25 19 20 13 10 11 6
C 301 1810 1000 390 1180 1310 1600 610 1580 990 210 620
D 12 31 22 49 53 41 50 62 72 51 69 83
       
7. Als we eigenschappen A en B tegen elkaar uitzetten vinden we een negatieve correlatie.
Als we eigenschappen B en C tegen elkaar uitzetten vinden we een positieve correlatie.
Wat voor correlatie vinden we als we eigenschappen A en C tegen elkaar uitzetten?
     

negatief

       
   

© h.hofstede (h.hofstede@hogeland.nl)