Steekproeven.

© h.hofstede (h.hofstede@hogeland.nl)

       
Als je uitspraken over de werkelijkheid wilt doen, dan zul je moeten onderzoeken hoe die werkelijkheid er uitziet.

Om absoluut zeker van je zaak te zijn zou je natuurlijk gewoon alles moeten onderzoeken, maar in praktijk is dat vaak niet haalbaar.

Stel bijvoorbeeld dat je "Maurice" heet en graag wilt weten hoeveel mensen in Nederland op de VVD zullen gaan stemmen. Dan kun je moeilijk heel Nederland gaan enquêteren. Dat zou iets teveel werk zijn. 

Je zult je tevreden moeten stellen met een kleine selectie die je kunt onderzoeken en dan moet je maar hopen dat de eigenschappen van die selectie (wel of niet VVD) een beetje kloppen met heel Nederland.




Eerst maar wat termen.

Een tweede reden kan natuurlijk ook zijn dat het te duur zou zijn om de hele populatie te bekijken. Bijvoorbeeld als je van de bevolking van een klein dorpje wilt weten hoeveel mensen drager van een bepaalde ziekte zijn zou het best eens te duur kunnen zijn om alle mensen aan een medisch onderzoek te onderwerpen.

En een derde reden zou kunnen zijn dat je onderzoek destructief is. Dat betekent dat de elementen uit je steekproef verloren gaan. Als je bijvoorbeeld per se wilt weten hoeveel jaarringen de bomen in een bos gemiddeld hebben kun je moeilijk het hele bos omzagen....

 

Populatie   = alles wat je zou kunnen onderzoeken.
In het voorbeeld van Maurice is de populatie niet heel Nederland, maar alleen de mensen in Nederland die mogen stemmen.
Steekproef = het deel van de populatie dat je werkelijk gaat onderzoeken.
Aselect = Een steekproef is aselect als elk element van de populatie een even grote kans heeft om in de steekproef te komen.
Representatief

=

Een steekproef is representatief als de onderzochte eigenschappen kloppen met de hele populatie.
Maar ja, dat weet je natuurlijk nooit zeker; je weet immers nog niet hoe die eigenschappen in de populatie verdeeld zijn. Als je dat wél zou weten is de steekproef nogal overbodig....
         
Voorbeelden van fouten.
       
Hier zie je een paar voorbeelden van steekproeven waarbij fouten gemaakt zijn. Ofwel steekproeven die niet representatief zijn.

Flauw voorbeeld 1.
In een enquête wordt de vraag gesteld:  "Vult U graag enquêtes in?"
Ik zal je niet beledigen door uit te leggen waarom dat een nogal domme vraag is......
Je kunt bijna net zo goed mensen een enquête per E-mail sturen en vragen  "Heeft U een computer...?"

Flauw voorbeeld 2.
Een leerling van de middelbare school wil voor zijn profielwerkstuk onderzoeken hoeveel er gerookt wordt door medeleerlingen. Hij gaat daarom aan het begin van de pauze buiten staan en vraagt aan de eerste 10 leerlingen die naar buiten komen of ze roken of niet.
Ik hoop dat je het logisch vindt dat het aantal rokers in de steekproef veel groter is dan in de populatie....

Subtiel voorbeeld 3.
Een busmaatschappij wil graag weten hoe vol de bussen zitten. Men laat daarom een student op een busstation rondlopen en aan zoveel mogelijk mensen vragen:  "Met hoeveel mensen zat U in de bus?"

Zie je dat het aantal mensen in een bus op deze manier veel te groot wordt? 
Stel bijvoorbeeld dat er 25 ritten zijn, met bezetting 1,2,3,4,...,24,25.
Dan is de gemiddelde bezetting natuurlijk gelijk aan 13 mensen per bus.
Maar wat zeggen de passagiers die we ondervragen? Als de enquête perfect is, en we ondervragen ALLE mensen, dan krijgen we deze antwoorden:
       

1 zegt 1
2 zeggen 2
3 zeggen 3
4 zeggen 4
...
...
...
25 zeggen 25

       
Het gemiddelde van al deze getallen is:  (1 • 1 + 2 • 2 + 3 • 3 + ....) / (1 + 2 + ... + 25) = 17.

FOUT DUS!!!
Het zit hem er natuurlijk in, dat er veel meer mensen zeggen dat de bussen vol zijn, omdat er nou eenmaal meer mensen in een volle bus zitten!

Gewoon voorbeeld 4.

Bij elke steekproef is ook de zogenaamde non-respons van groot belang. Dat is het aantal gevraagde mensen dat de steekproef niet invult. Dat wel of niet invullen kan behoorlijk afhankelijk zijn van wat mensen vinden. Als je bijvoorbeeld een onderzoek houdt over de klanttevredenheid van de mensen dan is de kans groot dat vooral ontevreden klanten de enquête invullen. 

       

       
Soorten Steekproeven.

1.  Gelote Steekproef.

Dat is een steekproef waarbij één voor één al degenen uit de populatie die in de steekproef komen worden geloot. Je zou een grote vaas kunnen maken met daarin van iedereen uit de populatie een briefje met de naam erop en er dan willekeurig een aantal briefjes uithalen.
Dat kan trouwens handig met je Grafische Rekenmachine. Stel dat je uit een populatie van 250 mensen een steekproef van 12 mensen wilt maken. Als je iedereen in de populatie dan een nummer geeft dan kun je met  MATH - PRB - RANDINT(1, 250) een willekeurig nummer tussen 1 en 250 kiezen. En daarna nog een keer en dan nog een keer.....in totaal 12 keer.  Alleen moet je dan opletten dat je niet een persoon twee keer kiest.

Dat laatste probleem kun je voorkomen door een systematische steekproef te houden. Dat gaat zo:  kies één willekeurig getal tussen 1 en 250. Kies daarna de andere 11 getallen door een vast aantal nummers omhoog of omlaag te gaan.  Omdat 250/12 = 20,8  kun je 20 nummers omhoog of omlaag gaan.
Als je eerste nummer bijvoorbeeld gelijk is aan  184  dan levert dat de volgende nummers op:
4 - 14 - 24 - 44 - 64 - 84 - 104 - 124 - 144 - 164 - 184 - 204 - 224 - 244

Op deze manier is de steekproef nog steeds aselect want elk nummer heeft (vooraf) een even grote kans om voor te komen.

2.  Gelaagde Steekproef.

Soms is een bepaalde eigenschap in de populatie zó belangrijk dat je zeker wilt weten dat de aantallen in je steekproef daarvoor zeker kloppen met de werkelijkheid.
Als je weet hoe die eigenschap in de populatie is verdeeld kun je daar makkelijk rekening mee houden. Als je dat doet dan heet dat een gelaagde steekproef (ook wel een gestratificeerde steekproef).

Stel bijvoorbeeld dat je weet dat in de populatie 34% uit vrouwen bestaat en 66% uit mannen.
Als je dan een steekproef van 80 mensen wilt houden reken je vooraf uit hoeveel 35% en 65% daarvan is. Dat is natuurlijk  0,34 • 80  = 27,2 27 vrouwen  en 0,66 • 80 = 52,8 53 mannen. 

     
       

   

verdelingen veranderen

   

schaalverdelingen

         
1. Op het Noorder College wil men weten hoe het met de vrijetijdsbesteding van de leerlingen gesteld is. In de volgende tabel zie je de leerlingenaantallen.
         
 

 

jongens

meisjes

onderbouw

bovenbouw

560

750

640

470

         
  Men besluit tot een gelaagde steekproef van 40 leerlingen, zowel wat geslacht betreft als wat onderbouw/bovenbouw betreft.  Hoe moet deze steekproef worden samengesteld?
         
2. Een trainer heeft van zijn spelers van het eerste elftal bijgehouden hoeveel gele kaarten iedereen in de competitie heeft gekregen. Dat gaf de volgende tabel:
         
 

aantal gele kaarten

0

1

2

3

4

5

6

7

aantal spelers

1

2

2

5

3

3

4

6

         
  a. Wat was het gemiddeld aantal gele kaarten per speler?
         
  De leraar wil graag een enquête houden om uit te zoeken wat zijn spelers van de arbitrage vonden. Hij nummert daarom zijn spelers van 1 tm 26 volgens de tabel hierboven, dus van 0 kaarten (nr. 1) naar 7 kaarten (nr. 26). Hij kiest met zijn GR een willekeurig getal van 0 tm 26, en maakt daarmee een systematische steekproef van 6 spelers
         
  b. Welke spelernummers zitten in zijn steekproef als hij als willekeurig getal 8 krijgt?
         
3. Welke fouten zijn volgens jou gemaakt bij het opstellen van de volgende steekproeven?
         
  a. De manager van Albert Hein wil graag weten hoe lang de rijen voor de kassa gemiddeld zijn. Hij houdt daarom een enquête bij de uitgang en vraagt alle klanten hoe lang ze in de rij stonden.
         
  b. Bij een onderzoek naar overgewicht bij kleuters wordt van alle kindertjes in een speeltuin het gewicht en de lengte gemeten.
         
  c. Om de mate van inburgering te meten stuurt de gemeente alle buitenlandse gezinnen in de stad een schriftelijke enquête.
         
  d. Pathé heeft een complex van 10 filmzalen. Bij de uitgang vraagt men alle bezoekers om een enquête in te vullen waarin men een rapportcijfer aan de bezochte film mag geven.
         
4. Toen men in de vorige eeuw veel interesse kreeg voor de gemiddelde temperatuur op aarde, werden er zo'n 6000 meetstations, verspreid over de aarde, in stand gehouden om metingen te leveren.
Maar de laatste jaren zijn meer en meer stations afgebroken, gewoon omdat het te duur werd die stations te onderhouden. In 2010 waren er nog maar 1500 meetstations over.

De duurste stations heeft men het eerst afgebroken en die stonden natuurlijk vooral in onherbergzame gebieden.
Leg uit dat dit voor een deel een verklaring zou kunnen zijn voor de opwarming van de aarde die de laatste tijd is gemeten.

         

© h.hofstede (h.hofstede@hogeland.nl)