| 
		  | 
				
		
		  | 
			 
			
				| 
		Causaliteit. | 
				
				 © 
				h.hofstede (h.hofstede@hogeland.nl)  | 
			 
		 
		 | 
    
    
      |   | 
        | 
    
    
      Je moet goed bedenken 
		dat we bij het berekenen van de correlatiecoëfficiënt alleen wiskundig 
		vaststellen of er een correlatie is tussen twee variabelen. Daarbij 
		wordt niets gezegd over wat nou de oorzaak is, en wat het gevolg. Dat 
		kun je al wel zien aan de correlatiecoëfficiënt r: daar komen x 
		en y symmetrisch in voor.  
		 
		Alleen bij het berekenen van de regressielijn hebben we aangenomen dat
		x de ooraak is, en y het gevolg. Dat noemen we een 
		causaal verband tussen x en y.  
		Maar daarbij moet je erg uitkijken. De superveilige stap van "er is een correlatie" 
		naar de zeer riskante bewering "er is een causaal verband" is een stap van de wiskunde naar 
		niet-wiskunde, en daarmee erg onbetrouwbaar en gevaarlijk om  te 
		maken. 
		Glad ijs!!!Dit zijn de twee meest gemaakte fouten.  | 
    
    
      |   | 
        | 
    
    
      | 
		Blunder 1. Oorzaak en Gevolg | 
    
    
      |   | 
      
		  | 
    
    
      Als je een (redelijk) grote correlatie tussen 
		twee dingen hebt gevonden, dan kun je nog niet weten welke nou de 
		oorzaak is, en welke het gevolg. 
		Neem bijvoorbeeld het onderzoek naar de hoeveelheid hashgebruik en het 
		IQ een paar jaar later (uit de vorige les). Daar vonden we de puntenwolk 
		hiernaast met maar liefst een r = -0,90. 
		De conclusie lijkt opgelegd:
		
			
				|   | 
			 
			
				
				
					
						
							| Van veel hash gebruiken gaat je IQ omlaag!! | 
						 
					 
				 
				 | 
			 
			
				|   | 
			 
		 
		 
		 | 
      
		 
		   | 
    
    
      Maar dat mag niet zomaar!!! 
		Die r was immers symmetrisch in x en y! Als we de assen 
		omdraaien  vinden we dezelfde r!! Je zou net zo goed kunnen 
		concluderen: | 
    
    
      |   | 
      
		  | 
    
    
      
		
			
				
					| 
					 "Met een hoog IQ ga je minder hash 
					gebruiken" 
					of 
					"Met een laag IQ ga je eerder veel hash gebruiken"  | 
				 
			 
		 
		 | 
    
    
      |   | 
      
		  | 
    
    
      | Beide conclusies volgen net zo 
		goed uit het onderzoek, en verklaren net zo goed de gevonden correlatie. | 
    
    
      |   | 
      
		  | 
    
    
      |   | 
      
		  | 
    
    
      
		
			
				| 1. | 
				In het hash-onderzoek hierboven is er wel het 
				voordeel dat er een tijdverschil is. We hebben immers het 
				hashgebruik op een bepaald moment uitgezet tegen het IQ een 
				aantal jaar later. Als het IQ een oorzaak is van het hashgebruik, 
				dan zou er een sterke correlatie gevonden moeten worden als we 
				het IQ van een bepaald moment zouden uitzetten tegen het hashgebruik een paar jaar later. 
				Doe dat met de gegevens van de 
				vorige les, en bereken opnieuw de 
				correlatiecoëfficiënt. 
				Welk conclusie wordt hierdoor waarschijnlijker? | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				| 2. | 
				Hieronder zie je  zeven  krantenkoppen 
				naar aanleiding van gevonden grote correlatiecoëfficiënten. 
				 
				Welke conclusies zouden in deze gevallen wiskundig net zo goed 
				gerechtvaardigd zijn? | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				|   | 
				
				  | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				| 3. | 
				Een onderzoeksbureau onderzocht in opdracht van 
				tabaksfabrikant Van Nelle van een groot aantal oudere mensen 
				hoeveel men rookte, en ook hoe vaak men nog seks met elkaar had. 
				Men vond een grote positieve correlatie. Van Nelle was blij, en 
				kon trots de volgende "wetenschappelijk bewezen" gegevens 
				publiceren:
					
						
							|   | 
						 
						
							| Roken goed voor de potentie! | 
						 
						
							|   | 
						 
					 
				 
				Welke conclusie had men net zo goed kunnen publiceren?  | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
		 
		 | 
    
    
      | 
		
		Blunder 2.  De derde factor | 
    
    
      |   | 
      
		  | 
    
    
      De foute conclusies hierboven 
		waren nog vrij eenvoudig op te sporen. Het ging maar om twee keuzes 
		voor oorzaak en gevolg. Maar soms ligt de zaak wat 
		moeilijker. Soms spelen er meer factoren mee. 
		 
		Een voorbeeld zal een boel duidelijk maken. En helaas ook een boel 
		onduidelijk..... 
		 
		Stel je voor dat medische onderzoekers een aantal jaren lang bij een 
		grote groep mensen over het hele land verspreid bekijken hoeveel 
		gevallen van polio er zijn in een bepaalde periode, en dat in een 
		grafiek uitzetten tegen de hoeveelheid frisdank die men gemiddeld per 
		dag in die periode dronk. Stel dat dat de volgende tabel oplevert; | 
    
    
      |   | 
      
		  | 
    
    
      
              
                
					
						| F | 
						0,50 | 
						1,60 | 
						2,05 | 
						1,00 | 
						1,10 | 
						0,85 | 
						1,50 | 
						1,65 | 
						0,85 | 
						0,70 | 
						1,00 | 
						1,90 | 
						2,20 | 
						1,30 | 
						2,00 | 
					 
					
						| P | 
						1,25 | 
						3,10 | 
						3,00 | 
						1,80 | 
						2,30 | 
						1,75 | 
						2,60 | 
						2,70 | 
						0,85 | 
						1,25 | 
						1,25 | 
						3,10 | 
						2,75 | 
						1,55 | 
						2,60 | 
					 
				 
               
              
              
                
                  
                    | F | 
                    0,72 | 
                    1,10 | 
                    0,70 | 
                    1,30 | 
                    2,00 | 
                    1,90 | 
                    1,70 | 
                    1,30 | 
                    0,55 | 
                    1,05 | 
                    0,90 | 
                    1,30 | 
                    2,30 | 
                    1,20 | 
                    1,60 | 
                   
                  
                    | P | 
                    1,25 | 
                    1,55 | 
                    1,50 | 
                    1,95 | 
                    3,40 | 
                    2,75 | 
                    2,35 | 
                    2,70 | 
                    0,75 | 
                    1,75 | 
                    1,50 | 
                    2,05 | 
                    3,50 | 
                    1,80 | 
                    2,10 | 
                   
                 
               
               | 
    
    
      |   | 
      
		  | 
    
    
      | Een brij van getallen.... Daarvan is dan eenvoudig het
                      alles-onthullende grafiekje hiernaast te maken.  
                      Wie hier niet de duidelijk stijgende tendens ziet is 
						blind natuurlijk!  
                      De conclusie is overduidelijk: hoe meer frisdrank men
              gebruikt, des te meer gevallen van polio. 
                       
              Laten we er maar meteen een verontrustende krantenkop tegenaan
              gooien: 
		
			
				|   | 
			 
			
				| FRISDRANK
                      VERHOOGT KANS OP POLIO! | 
			 
			
				|   | 
			 
		 
		 
		 | 
      
		 
		   | 
    
    
      (Als je het bovenstaande hebt 
		gelezen, kon de conclusie kon net zo goed zijn "Van polio krijg je
              dorst" natuurlijk, maar daar letten we even niet op. Er is 
		een veel sterker effect gaande....)  
              Ondanks de duidelijk stijgende puntenwolk slaat deze conclusie
              toch helemaal nergens op, en dat komt door de aanwezigheid van een
              zogenaamde "derde factor".  
              Laten we de tabel hierboven aanvullen met een derde rij die de
              gemiddelde temperatuur in de meetperiode weergeeft: 
 		 | 
    
    
      |   | 
      
		  | 
    
    
      
              
                
					
						| F | 
						0,50 | 
						1,60 | 
						2,05 | 
						1,00 | 
						1,10 | 
						0,85 | 
						1,50 | 
						1,65 | 
						0,85 | 
						0,70 | 
						1,00 | 
						1,90 | 
						2,20 | 
						1,30 | 
						2,00 | 
					 
					
						| P | 
						1,25 | 
						3,10 | 
						3,00 | 
						1,80 | 
						2,30 | 
						1,75 | 
						2,60 | 
						2,70 | 
						0,85 | 
						1,25 | 
						1,25 | 
						3,10 | 
						2,75 | 
						1,55 | 
						2,60 | 
					 
					
						| T | 
						20 | 
						24 | 
						25 | 
						22 | 
						22 | 
						21 | 
						23 | 
						23 | 
						20 | 
						20 | 
						21 | 
						24 | 
						25 | 
						22 | 
						24 | 
					 
				 
               
              
              
                
                  
                    | F | 
                    0,72 | 
                    1,10 | 
                    0,70 | 
                    1,30 | 
                    2,00 | 
                    1,90 | 
                    1,70 | 
                    1,30 | 
                    0,55 | 
                    1,05 | 
                    0,90 | 
                    1,30 | 
                    2,30 | 
                    1,20 | 
                    1,60 | 
                   
                  
                    | P | 
                    1,25 | 
                    1,55 | 
                    1,50 | 
                    1,95 | 
                    3,40 | 
                    2,75 | 
                    2,35 | 
                    2,70 | 
                    0,75 | 
                    1,75 | 
                    1,50 | 
                    2,05 | 
                    3,50 | 
                    1,80 | 
                    2,10 | 
                   
                  
                    | T | 
                    21 | 
                    22 | 
                    21 | 
                    23 | 
                    25 | 
                    25 | 
                    24 | 
                    23 | 
                    20 | 
                    21 | 
                    20 | 
                    22 | 
                    25 | 
                    22 | 
                    23 | 
                   
                 
               
               | 
    
    
      |   | 
      
		  | 
    
    
      | Grafieken van P tegen T en van F tegen T zien er zó uit: | 
    
    
      |   | 
      
		  | 
    
    
      | 
		 
		   | 
    
    
      |   | 
      
		  | 
    
    
      | Wat blijkt: zowel F als P hebben een positieve correlatie
              met T. Dat is vast te verklaren: als het warm is drinken de mensen
              meer frisdrank, en als het warm is zal de polio-bacterie zich
              sneller vermenigvuldigen. F en P hebben dus met elkaar niets
              te maken; kijk maar naar de volgende grafiekjes van F tegen P bij
              bepaalde vaste temperatuur (uit dezelfde gegevens):  | 
    
    
      |   | 
      
		  | 
    
    
      | 
		 
		   | 
    
    
      |   | 
      
		  | 
    
    
      | 
               Van die stijgende tendens is niets meer over. 
              Er is dus een derde factor (T) waarmee beiden positief correleren.
              En zonder die extra T-rij in de tabel waren we daar nooit
              opgekomen.
              Ofwel: zo'n vervelende derde factor kan eigenlijk ALTIJD ergens
              verborgen op de loer liggen!!!!! Heel frustrerend; je kunt pas
              conclusies trekken als ALLE andere factoren gelijk zijn.
               Maar ja, .....wat zijn ALLE....?  Het is om paranoïde van 
				te worden! Kunnen we ooit nog wel een conclusie over causaliteit 
				trekken?  | 
    
    
      |   | 
      
		  | 
    
    
      | Een mooi artikel uit de 
		Volkskrant van wetenschapsjournalist Hans van Maanen over dit onderwerp 
		(en nog meer wiskundig interessante onderwerpen trouwens) kun je vinden 
		op   
		
		http://www.vanmaanen.org/hans/columns/borstenlinks.html | 
    
    
      |   | 
      
		  | 
    
    
      | In de verdieping hiernaast kun je 
		vinden hoe je in het geval van drie zulke factoren die elkaar 
		beïnvloeden toch iets kunt zeggen over welke invloed wat nou op wat 
		heeft.... | 
    
    
      |   | 
      
		
		  | 
    
    
      |   | 
      
		  | 
    
    
      
		
			
				| 4. | 
				Stel dat er een superdrankje wordt gevonden dat 
				de kans op hartinfarcten drastisch vermindert. Dat betekent dat 
				er een sterk negatieve correlatie zal zijn tussen het totaal 
				aantal hartinfarcten in een gebied en het gebruik van dat 
				superdrankje. 
				Maar als je dan een puntenwolk maakt van het aantal doden door 
				kanker en het gebruik van dat superdrankje, dan zal daar een 
				positieve correlatie te vinden zijn. | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				|   | 
				a. | 
				Leg uit welke derde factor hier een rol speelt. | 
				  | 
			 
			
				|   | 
				  | 
				
				
				 | 
			 
			
				|   | 
				b. | 
				Licht de uitspraak "elk goed 
				geneesmiddel tegen een ziekte correleert positief met een andere 
				ziekte" toe. | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				| 5. | 
				Wat zou een derde factor kunnen zijn 
				in de volgende gevonden correlaties? | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				|   | 
				a. | 
				De woordenschat en schoenmaat van 
				middelbare school leerlingen correleren sterk positief. | 
			 
			
				|   | 
				  | 
				
				
				 | 
			 
			
				|   | 
				b. | 
				Er is een negatieve correlatie te 
				vinden tussen de verkoop van tulpenbollen en van zwembroeken.
				 | 
			 
			
				|   | 
				  | 
				
				
				 | 
			 
			
				|   | 
				c. | 
				Er is een negatieve correlatie 
				tussen de hoogte waarop een schaatsbaan ligt en de gereden 
				baanrecords. | 
			 
			
				|   | 
				  | 
				
				
				 | 
			 
			
				|   | 
				d. | 
				Er is een positieve correlatie 
				tussen hoeveel restaurants iemand bezoekt en hoeveel 
				schilderijen hij koopt. | 
			 
			
				|   | 
				  | 
				
				
				 | 
			 
			
				|   | 
				e. | 
				Er is een positieve correlatie 
				tussen het aantal auto´s en het aantal computers in 
				verschillende landen. | 
			 
			
				|   | 
				  | 
				  | 
				
				
				 | 
			 
			
				|   | 
				f. | 
				Er is een negatieve correlatie 
				tussen het aantal zwart-wit TV´s en het aantal computers in ons 
				land. | 
			 
			
				|   | 
				  | 
				  | 
				
				
				 | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				| 6. | 
				Hieronder vind je in één tabel de 
				eigenschappen A, B, C en D die bij een aantal proefpersonen zijn 
				gemeten. 
				Leg uit welke (positieve of negatieve) correlaties er te vinden 
				zijn, en leg ook uit welke eigenschap in die gevallen een derde 
				factor zou kunnen zijn. | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				|   | 
				
				
					
						
							|   | 
							
							 proefpersoon  | 
						 
						
							| a | 
							b | 
							c | 
							d | 
							e | 
							f | 
							g | 
							h | 
							i | 
							j | 
							k | 
							l | 
						 
						
							| A | 
							1,2 | 
							3,0 | 
							2,9 | 
							4,4 | 
							5,2 | 
							5,2 | 
							6,0 | 
							6,9 | 
							8,1 | 
							7,4 | 
							9,1 | 
							9,9 | 
						 
						
							| B | 
							40 | 
							36 | 
							27 | 
							31 | 
							33 | 
							25 | 
							19 | 
							20 | 
							13 | 
							10 | 
							11 | 
							6 | 
						 
						
							| C | 
							301 | 
							1810 | 
							1000 | 
							390 | 
							1180 | 
							1310 | 
							1600 | 
							610 | 
							1580 | 
							990 | 
							210 | 
							620 | 
						 
						
							| D | 
							12 | 
							31 | 
							22 | 
							49 | 
							53 | 
							41 | 
							50 | 
							62 | 
							72 | 
							51 | 
							69 | 
							83 | 
						 
					 
				 
				 | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
			
				| 7. | 
				Als we eigenschappen A en B tegen 
				elkaar uitzetten vinden we een negatieve correlatie. 
				Als we eigenschappen B en C tegen elkaar uitzetten vinden we een 
				positieve correlatie. 
				Wat voor correlatie vinden we als we eigenschappen A en C tegen 
				elkaar uitzetten? | 
			 
			
				|   | 
				  | 
				  | 
				
				
				 | 
			 
			
				|   | 
				  | 
				  | 
				  | 
			 
		 
		 | 
    
    
      |   | 
      
		  | 
    
    
      | 
		 © 
				h.hofstede (h.hofstede@hogeland.nl)  | 
      
		
		  |