|
|
Causaliteit. |
©
h.hofstede (h.hofstede@hogeland.nl) |
|
|
|
Je moet goed bedenken
dat we bij het berekenen van de correlatiecoëfficiënt alleen wiskundig
vaststellen of er een correlatie is tussen twee variabelen. Daarbij
wordt niets gezegd over wat nou de oorzaak is, en wat het gevolg. Dat
kun je al wel zien aan de correlatiecoëfficiënt r: daar komen x
en y symmetrisch in voor.
Alleen bij het berekenen van de regressielijn hebben we aangenomen dat
x de ooraak is, en y het gevolg. Dat noemen we een
causaal verband tussen x en y.
Maar daarbij moet je erg uitkijken. De superveilige stap van "er is een correlatie"
naar de zeer riskante bewering "er is een causaal verband" is een stap van de wiskunde naar
niet-wiskunde, en daarmee erg onbetrouwbaar en gevaarlijk om te
maken.
Glad ijs!!!Dit zijn de twee meest gemaakte fouten. |
|
|
Blunder 1. Oorzaak en Gevolg |
|
|
Als je een (redelijk) grote correlatie tussen
twee dingen hebt gevonden, dan kun je nog niet weten welke nou de
oorzaak is, en welke het gevolg.
Neem bijvoorbeeld het onderzoek naar de hoeveelheid hashgebruik en het
IQ een paar jaar later (uit de vorige les). Daar vonden we de puntenwolk
hiernaast met maar liefst een r = -0,90.
De conclusie lijkt opgelegd:
|
Van veel hash gebruiken gaat je IQ omlaag!! |
|
|
|
|
Maar dat mag niet zomaar!!!
Die r was immers symmetrisch in x en y! Als we de assen
omdraaien vinden we dezelfde r!! Je zou net zo goed kunnen
concluderen: |
|
|
"Met een hoog IQ ga je minder hash
gebruiken"
of
"Met een laag IQ ga je eerder veel hash gebruiken" |
|
|
|
Beide conclusies volgen net zo
goed uit het onderzoek, en verklaren net zo goed de gevonden correlatie. |
|
|
|
|
1. |
In het hash-onderzoek hierboven is er wel het
voordeel dat er een tijdverschil is. We hebben immers het
hashgebruik op een bepaald moment uitgezet tegen het IQ een
aantal jaar later. Als het IQ een oorzaak is van het hashgebruik,
dan zou er een sterke correlatie gevonden moeten worden als we
het IQ van een bepaald moment zouden uitzetten tegen het hashgebruik een paar jaar later.
Doe dat met de gegevens van de
vorige les, en bereken opnieuw de
correlatiecoëfficiënt.
Welk conclusie wordt hierdoor waarschijnlijker? |
|
|
|
|
|
|
|
|
2. |
Hieronder zie je zeven krantenkoppen
naar aanleiding van gevonden grote correlatiecoëfficiënten.
Welke conclusies zouden in deze gevallen wiskundig net zo goed
gerechtvaardigd zijn? |
|
|
|
|
|
|
|
|
|
|
3. |
Een onderzoeksbureau onderzocht in opdracht van
tabaksfabrikant Van Nelle van een groot aantal oudere mensen
hoeveel men rookte, en ook hoe vaak men nog seks met elkaar had.
Men vond een grote positieve correlatie. Van Nelle was blij, en
kon trots de volgende "wetenschappelijk bewezen" gegevens
publiceren:
|
Roken goed voor de potentie! |
|
Welke conclusie had men net zo goed kunnen publiceren? |
|
|
|
|
|
|
|
|
|
Blunder 2. De derde factor |
|
|
De foute conclusies hierboven
waren nog vrij eenvoudig op te sporen. Het ging maar om twee keuzes
voor oorzaak en gevolg. Maar soms ligt de zaak wat
moeilijker. Soms spelen er meer factoren mee.
Een voorbeeld zal een boel duidelijk maken. En helaas ook een boel
onduidelijk.....
Stel je voor dat medische onderzoekers een aantal jaren lang bij een
grote groep mensen over het hele land verspreid bekijken hoeveel
gevallen van polio er zijn in een bepaalde periode, en dat in een
grafiek uitzetten tegen de hoeveelheid frisdank die men gemiddeld per
dag in die periode dronk. Stel dat dat de volgende tabel oplevert; |
|
|
F |
0,50 |
1,60 |
2,05 |
1,00 |
1,10 |
0,85 |
1,50 |
1,65 |
0,85 |
0,70 |
1,00 |
1,90 |
2,20 |
1,30 |
2,00 |
P |
1,25 |
3,10 |
3,00 |
1,80 |
2,30 |
1,75 |
2,60 |
2,70 |
0,85 |
1,25 |
1,25 |
3,10 |
2,75 |
1,55 |
2,60 |
F |
0,72 |
1,10 |
0,70 |
1,30 |
2,00 |
1,90 |
1,70 |
1,30 |
0,55 |
1,05 |
0,90 |
1,30 |
2,30 |
1,20 |
1,60 |
P |
1,25 |
1,55 |
1,50 |
1,95 |
3,40 |
2,75 |
2,35 |
2,70 |
0,75 |
1,75 |
1,50 |
2,05 |
3,50 |
1,80 |
2,10 |
|
|
|
Een brij van getallen.... Daarvan is dan eenvoudig het
alles-onthullende grafiekje hiernaast te maken.
Wie hier niet de duidelijk stijgende tendens ziet is
blind natuurlijk!
De conclusie is overduidelijk: hoe meer frisdrank men
gebruikt, des te meer gevallen van polio.
Laten we er maar meteen een verontrustende krantenkop tegenaan
gooien:
|
FRISDRANK
VERHOOGT KANS OP POLIO! |
|
|
|
(Als je het bovenstaande hebt
gelezen, kon de conclusie kon net zo goed zijn "Van polio krijg je
dorst" natuurlijk, maar daar letten we even niet op. Er is
een veel sterker effect gaande....)
Ondanks de duidelijk stijgende puntenwolk slaat deze conclusie
toch helemaal nergens op, en dat komt door de aanwezigheid van een
zogenaamde "derde factor".
Laten we de tabel hierboven aanvullen met een derde rij die de
gemiddelde temperatuur in de meetperiode weergeeft:
|
|
|
F |
0,50 |
1,60 |
2,05 |
1,00 |
1,10 |
0,85 |
1,50 |
1,65 |
0,85 |
0,70 |
1,00 |
1,90 |
2,20 |
1,30 |
2,00 |
P |
1,25 |
3,10 |
3,00 |
1,80 |
2,30 |
1,75 |
2,60 |
2,70 |
0,85 |
1,25 |
1,25 |
3,10 |
2,75 |
1,55 |
2,60 |
T |
20 |
24 |
25 |
22 |
22 |
21 |
23 |
23 |
20 |
20 |
21 |
24 |
25 |
22 |
24 |
F |
0,72 |
1,10 |
0,70 |
1,30 |
2,00 |
1,90 |
1,70 |
1,30 |
0,55 |
1,05 |
0,90 |
1,30 |
2,30 |
1,20 |
1,60 |
P |
1,25 |
1,55 |
1,50 |
1,95 |
3,40 |
2,75 |
2,35 |
2,70 |
0,75 |
1,75 |
1,50 |
2,05 |
3,50 |
1,80 |
2,10 |
T |
21 |
22 |
21 |
23 |
25 |
25 |
24 |
23 |
20 |
21 |
20 |
22 |
25 |
22 |
23 |
|
|
|
Grafieken van P tegen T en van F tegen T zien er zó uit: |
|
|
|
|
|
Wat blijkt: zowel F als P hebben een positieve correlatie
met T. Dat is vast te verklaren: als het warm is drinken de mensen
meer frisdrank, en als het warm is zal de polio-bacterie zich
sneller vermenigvuldigen. F en P hebben dus met elkaar niets
te maken; kijk maar naar de volgende grafiekjes van F tegen P bij
bepaalde vaste temperatuur (uit dezelfde gegevens): |
|
|
|
|
|
Van die stijgende tendens is niets meer over.
Er is dus een derde factor (T) waarmee beiden positief correleren.
En zonder die extra T-rij in de tabel waren we daar nooit
opgekomen.
Ofwel: zo'n vervelende derde factor kan eigenlijk ALTIJD ergens
verborgen op de loer liggen!!!!! Heel frustrerend; je kunt pas
conclusies trekken als ALLE andere factoren gelijk zijn.
Maar ja, .....wat zijn ALLE....? Het is om paranoïde van
te worden! Kunnen we ooit nog wel een conclusie over causaliteit
trekken? |
|
|
Een mooi artikel uit de
Volkskrant van wetenschapsjournalist Hans van Maanen over dit onderwerp
(en nog meer wiskundig interessante onderwerpen trouwens) kun je vinden
op
http://www.vanmaanen.org/hans/columns/borstenlinks.html |
|
|
In de verdieping hiernaast kun je
vinden hoe je in het geval van drie zulke factoren die elkaar
beïnvloeden toch iets kunt zeggen over welke invloed wat nou op wat
heeft.... |
|
|
|
|
4. |
Stel dat er een superdrankje wordt gevonden dat
de kans op hartinfarcten drastisch vermindert. Dat betekent dat
er een sterk negatieve correlatie zal zijn tussen het totaal
aantal hartinfarcten in een gebied en het gebruik van dat
superdrankje.
Maar als je dan een puntenwolk maakt van het aantal doden door
kanker en het gebruik van dat superdrankje, dan zal daar een
positieve correlatie te vinden zijn. |
|
|
|
|
|
a. |
Leg uit welke derde factor hier een rol speelt. |
|
|
|
|
|
b. |
Licht de uitspraak "elk goed
geneesmiddel tegen een ziekte correleert positief met een andere
ziekte" toe. |
|
|
|
|
5. |
Wat zou een derde factor kunnen zijn
in de volgende gevonden correlaties? |
|
|
|
|
|
a. |
De woordenschat en schoenmaat van
middelbare school leerlingen correleren sterk positief. |
|
|
|
|
b. |
Er is een negatieve correlatie te
vinden tussen de verkoop van tulpenbollen en van zwembroeken.
|
|
|
|
|
c. |
Er is een negatieve correlatie
tussen de hoogte waarop een schaatsbaan ligt en de gereden
baanrecords. |
|
|
|
|
d. |
Er is een positieve correlatie
tussen hoeveel restaurants iemand bezoekt en hoeveel
schilderijen hij koopt. |
|
|
|
|
e. |
Er is een positieve correlatie
tussen het aantal auto´s en het aantal computers in
verschillende landen. |
|
|
|
|
|
f. |
Er is een negatieve correlatie
tussen het aantal zwart-wit TV´s en het aantal computers in ons
land. |
|
|
|
|
|
|
|
|
6. |
Hieronder vind je in één tabel de
eigenschappen A, B, C en D die bij een aantal proefpersonen zijn
gemeten.
Leg uit welke (positieve of negatieve) correlaties er te vinden
zijn, en leg ook uit welke eigenschap in die gevallen een derde
factor zou kunnen zijn. |
|
|
|
|
|
|
proefpersoon |
a |
b |
c |
d |
e |
f |
g |
h |
i |
j |
k |
l |
A |
1,2 |
3,0 |
2,9 |
4,4 |
5,2 |
5,2 |
6,0 |
6,9 |
8,1 |
7,4 |
9,1 |
9,9 |
B |
40 |
36 |
27 |
31 |
33 |
25 |
19 |
20 |
13 |
10 |
11 |
6 |
C |
301 |
1810 |
1000 |
390 |
1180 |
1310 |
1600 |
610 |
1580 |
990 |
210 |
620 |
D |
12 |
31 |
22 |
49 |
53 |
41 |
50 |
62 |
72 |
51 |
69 |
83 |
|
|
|
|
|
7. |
Als we eigenschappen A en B tegen
elkaar uitzetten vinden we een negatieve correlatie.
Als we eigenschappen B en C tegen elkaar uitzetten vinden we een
positieve correlatie.
Wat voor correlatie vinden we als we eigenschappen A en C tegen
elkaar uitzetten? |
|
|
|
|
|
|
|
|
|
|
|
©
h.hofstede (h.hofstede@hogeland.nl) |
|