| |
© h.hofstede (h.hofstede@hogeland.nl)
|
|
| |
 |
|
Correlatie en causaliteit |
| |
|
|
|
Bedenk goed dat de correlatie aangeeft of er een
wiskundig verband is. Dat betekent niet dat er ook
een oorzakelijk verband is.
"Oorzakelijk verband" wil zeggen dat de ene variabele oorzaak is en de
andere tot gevolg heeft.
De superveilige stap van "er is een correlatie" naar de zeer
riskante bewering "er is een causaal verband" is een stap van de
wiskunde naar niet-wiskunde, en daarmee erg onbetrouwbaar en gevaarlijk
om te maken.
Glad ijs!!!
Twee veel gemaakte fouten:
FOUT 1: Wat is
eigenlijk de oorzaak en wat het gevolg?Stel dat je een
onderzoek hebt gedaan over hoeveel koffie iemand drinkt en hoe vaak
hij/zij seks heeft, en je hebt een sterke positieve correlatie gevonden.
Dan kun je als koffiefabrikant concluderen: "Koffie is goed
voor de potentie" en je kunt er zelfs trots een artikel met deze
krantenkop aan besteden. Wie weet ga je er meer koffie door
verkopen.
Maar je zou net zo goed kunnen concluderen: "Van seks krijg je
trek in koffie"
Je weet niet wat de oorzaak is en wat het gevolg....... |
| |
|
|
|
FOUT 2: De derde factor.
Stel je voor dat medische onderzoekers een aantal jaren lang bij een
grote groep mensen over het hele land verspreid bekijken hoeveel
gevallen van polio er zijn in een bepaalde periode, en dat in een
grafiek uitzetten tegen de hoeveelheid frisdank die men gemiddeld per
dag in die periode dronk. Dat gaf de volgende tabel |
| |
|
|
|
| F |
0,50 |
1,60 |
2,05 |
1,00 |
1,10 |
0,85 |
1,50 |
1,65 |
0,85 |
0,70 |
1,00 |
1,90 |
2,20 |
1,30 |
2,00 |
| P |
1,25 |
3,10 |
3,00 |
1,80 |
2,30 |
1,75 |
2,60 |
2,70 |
0,85 |
1,25 |
1,25 |
3,10 |
2,75 |
1,55 |
2,60 |
| F |
0,72 |
1,10 |
0,70 |
1,30 |
2,00 |
1,90 |
1,70 |
1,30 |
0,55 |
1,05 |
0,90 |
1,30 |
2,30 |
1,20 |
1,60 |
| P |
1,25 |
1,55 |
1,50 |
1,95 |
3,40 |
2,75 |
2,35 |
2,70 |
0,75 |
1,75 |
1,50 |
2,05 |
3,50 |
1,80 |
2,10 |
|
| |
|
|
|
Een grafiek ervan
staat in de puntenwolk hiernaast.
Wie hier niet de duidelijk stijgende tendens ziet is
blind natuurlijk!
De conclusie is overduidelijk: hoe meer frisdrank men
gebruikt, des te meer gevallen van polio.
Laten we er maar meteen een verontrustende krantenkop tegenaan
gooien: |
 |
| |
|
|
|
FRISDRANK
VERHOOGT KANS OP POLIO! |
| |
|
|
| (Als je het bovenstaande
bij fout 1 hebt
gelezen, kon de conclusie kon net zo goed zijn "Van polio krijg je
dorst" natuurlijk, maar daar letten we even niet op. Er is
een veel sterker effect gaande....) |
Ondanks de duidelijk stijgende puntenwolk slaat deze conclusie
toch helemaal nergens op, en dat komt door de aanwezigheid van een
zogenaamde "derde factor".
Laten we de tabel hierboven aanvullen met een derde rij die de
gemiddelde temperatuur in de meetperiode weergeeft: |
| |
|
|
|
| F |
0,50 |
1,60 |
2,05 |
1,00 |
1,10 |
0,85 |
1,50 |
1,65 |
0,85 |
0,70 |
1,00 |
1,90 |
2,20 |
1,30 |
2,00 |
| P |
1,25 |
3,10 |
3,00 |
1,80 |
2,30 |
1,75 |
2,60 |
2,70 |
0,85 |
1,25 |
1,25 |
3,10 |
2,75 |
1,55 |
2,60 |
| T |
20 |
24 |
25 |
22 |
22 |
21 |
23 |
23 |
20 |
20 |
21 |
24 |
25 |
22 |
24 |
| F |
0,72 |
1,10 |
0,70 |
1,30 |
2,00 |
1,90 |
1,70 |
1,30 |
0,55 |
1,05 |
0,90 |
1,30 |
2,30 |
1,20 |
1,60 |
| P |
1,25 |
1,55 |
1,50 |
1,95 |
3,40 |
2,75 |
2,35 |
2,70 |
0,75 |
1,75 |
1,50 |
2,05 |
3,50 |
1,80 |
2,10 |
| T |
21 |
22 |
21 |
23 |
25 |
25 |
24 |
23 |
20 |
21 |
20 |
22 |
25 |
22 |
23 |
|
| |
|
|
|
| Grafieken van P - T
en van F - T zien er zó uit: |
| |
|
|
|
|
 |
| |
|
|
|
| Wat blijkt: zowel F als P hebben een positieve correlatie
met T. Dat is vast te verklaren: als het warm is drinken de mensen
meer frisdrank, en als het warm is zal de polio-bacterie zich
sneller vermenigvuldigen. F en P hebben dus met elkaar
niets
te maken; kijk maar naar de volgende grafiekjes van F tegen P bij
bepaalde vaste temperatuur (uit dezelfde gegevens): |
| |
|
|
|
|
 |
| |
|
|
|
|
Van die stijgende tendens is niets meer over.
Er is dus een derde factor (T) waarmee beiden positief correleren.
En zonder die extra T-rij in de tabel waren we daar nooit
opgekomen.
Ofwel: zo'n vervelende derde factor kan eigenlijk ALTIJD ergens
verborgen op de loer liggen!!!!! Heel frustrerend; je kunt pas
conclusies trekken als ALLE andere factoren gelijk zijn.
Maar ja, .....wat zijn ALLE....? Het is om paranoïde van
te worden! Kunnen we ooit nog wel een conclusie over causaliteit
trekken? |
| |
|
|
|
| |
|
|
|
OPGAVEN. |
| |
|
|
|
| 1. |
Wat zou een derde
factor kunnen zijn bij de volgende gevonden correlaties? |
| |
|
|
|
| |
a. |
De woordenschat en
schoenmaat van middelbare school leerlingen vertonen een sterk positieve
correlatie. |
| |
|
|
|
| |
b. |
Er is een negatieve correlatie
tussen de hoogte waarop een schaatsbaan ligt en de gereden
baanrecords. |
| |
|
|
|
| |
c. |
Er is een positieve correlatie
tussen hoeveel restaurants iemand bezoekt en hoeveel
schilderijen hij koopt. |
| |
|
|
|
| |
d. |
Er is een negatieve correlatie te
vinden tussen de verkoop van tulpenbollen en van zwembroeken.
|
| |
|
|
|
| 2. |
Hieronder zie je
zeven krantenkoppen naar aanleiding van gevonden grote correlatiecoëfficiënten.
Welke conclusies zouden in deze gevallen wiskundig net zo goed
gerechtvaardigd zijn? |
| |
|
|
|
| |
 |
| |
|
|
|
| 3. |
Hieronder vind je in één tabel de
eigenschappen A, B, C en D die bij een aantal proefpersonen zijn
gemeten.
Leg uit welke (positieve of negatieve) correlaties er te vinden
zijn, en leg ook uit welke eigenschap in die gevallen een derde
factor zou kunnen zijn. |
| |
|
|
|
| |
| |
proefpersoon |
| a |
b |
c |
d |
e |
f |
g |
h |
i |
j |
k |
l |
| A |
320 |
330 |
280 |
250 |
500 |
810 |
610 |
700 |
450 |
660 |
210 |
400 |
| B |
3,8 |
8,8 |
4,6 |
5,1 |
2,4 |
8,6 |
4,0 |
5,4 |
7,2 |
6,0 |
8,0 |
6,8 |
| C |
23 |
91 |
35 |
38 |
18 |
84 |
30 |
42 |
66 |
50 |
72 |
61 |
| D |
76 |
25 |
63 |
60 |
80 |
29 |
71 |
55 |
42 |
54 |
38 |
50 |
|
| |
|
|
|
 |
|
|
© h.hofstede (h.hofstede@hogeland.nl)
|