De Continuïteitscorrectie.

© h.hofstede (h.hofstede@hogeland.nl)

Op een golfbaan worden vaak verkeerd geslagen golfballen door de spelers niet teruggevonden. Na sluitingstijd van de baan gaan kinderen uit de buurt nog vaak golfballen zoeken in de struiken en bosjes om die dan  later voor een paar dubbeltjes per stuk te verkopen aan golfers. Voor het aantal gevonden golfballen per dag geldt de volgende tabel:
aantal ballen 18 19 20 21 22 23 24 25 26 27 28 29
frequentie 1 2 3 5 8 11 14 18 21 24 25 24
aantal ballen 30 31 32 33 34 35 36 37 38 39 40 41
frequentie 22 19 16 12 9 6 4 2 1 1 0 0
Dit aantal golfballen blijkt een bijna perfecte normale verdeling te volgen. Een grafiek op normaal-waarschijnlijkheidspapier geeft een kaarsrechte lijn! Als ik het aantal ballen in L1 van mijn GR zet, en de frequentie in L2, en dan via STAT-CALC-1VarStats(L1, L2) het gemiddelde en de standaarddeviatie bereken vind ik μ = 28,2 en σ = 3,94.
Hiernaast zie je hoe griezelig goed dat past bij de tabel. In de figuur hiernaast staat het histogram van de tabel in één figuur met de grafiek van Y1 = normalpdf(X, 28.2, 3.94).
Laten we het met een berekening gaan testen. We bekijken de kans dat er op een dag meer dan 32 ballen worden gevonden.

De normale verdeling levert op:
normalcdf(32, 1000, 28.2, 3.94) = 0,167
Ofwel 16,7%.

In de tabel zien we dat er 35 van de 248 dagen meer dan 30 ballen waren gevonden. Dat zou een percentage van 70/248 • 100% = 14,1% moeten opleveren!

Dat scheelt nogal veel met elkaar!!!!!
Wat is hier aan de hand?
Alhoewel de twee figuren heel goed met elkaar overeenkomen vinden we met onze berekeningen toch een groot verschil. Hoe kan dat? Dat kan nooit komen door die kleine stukjes histogram die boven de klokvorm uitsteken of er juist onder blijven. Die zijn veel te klein om een verschil van meer dan 2,5% te geven. Bovendien heffen die kleine afwijkinkjes boven en onder de klokvorm elkaar ook nog eens grotendeels op.
Waar dat verschil dan wél vandaan komt zie je als je de oppervlaktes die je berekent met het histogram en met de klokvorm wat nauwkeuriger met elkaar vergelijkt:

Kijk goed naar het verschil tussen de twee blauwe oppervlaktes in de figuren hierboven. Zie je het grote verschil?
Het zit hem erin dat de meetwaarden op de x-as in het histogram bij de middens van de staven staan. Dus in de linkerfiguur loopt de blauwe oppervlakte vanaf staaf 33 maar rechts toe. Maar in de rechterfiguur letten we niet op staven en nemen we gewoon de oppervlakte vanaf x = 32 naar rechts toe. Dat scheelt een halve staaf, kijk maar:

Dat komt dus doordat we een discrete verdeling (het aantal golfballen moet een geheel getal zijn) hier benaderen met een continue verdeling (de normale verdeling).
Om een betere overeenkomst te krijgen moeten we  een correctie uitvoeren: ook in de rechterfiguur moeten we die gele staaf niet meetellen. Dat kan als we als linkergrens niet 32 nemen, maar 32,5.
Dat geeft oppervlakte  normalcdf(32.5, 1000, 28.2, 3.94) = 13,8% en dat lijkt veel beter op de 14,1% van het histogram. Dat scheelt nog niet eens één golfbal (want die is 0,4%).

Deze correctie (van die halve staaf verschil) komt elke keer voor als je een discrete verdeling probeert te benaderen door de normale verdeling. Het heet de continuïteitscorrectie
Let dus goed op:
   

Elke keer als je iets met de normale verdeling berekent,
maar je wéét dat de verdeling eigenlijk discreet is,
dan moet je de continuïteitscorrectie toepassen.

   
Het scheelt elke keer een halve staaf. Je moet dus voor de grenzen van de normale verdeling 0,5 meer of minder nemen. Maak maar gewoon zo'n tekening als hierboven, dan zie je het vanzelf.
   
 
 
  OPGAVEN
   
1. Het aantal woorden in de ingezonden brieven bij een krant is bij benadering normaal verdeeld met een gemiddelde van  130 en een standaardafwijking van 42.
Bereken zo nauwkeurig mogelijk de kans dat een ingezonden brief minstens 200 woorden bevat.
         
2. Jos speelt elke dinsdagavond op de schaakclub. Hij houdt bij uit hoeveel zetten de partijen die hij speelt bestaan. Dat aantal zetten blijkt ongeveer normaal verdeeld te zijn met een gemiddelde van 45 en een standaardafwijking van 8,5.
Hoe groot is de kans dat een partij minder dan 35 zetten duurt?
         
3. Yari en Pieter spelen elke zaterdagmiddag een partijtje Scrabble. Daarbij krijg je blokjes met letters erop en daarmee moet je om de beurt een woord leggen waar je dan punten mee kunt scoren.
Het gemiddelde aantal punten per woord dat Yari scoort is ongeveer normaal verdeeld met een gemiddelde van 24 en een standaardafwijking van 8.
Het gemiddelde aantal punten per woord dat Pieter scoort is ongeveer normaal verdeeld met een gemiddelde van 26 en een standaardafwijking van 10.
         
  a. Hoe groot is de kans dat Pieter in een partij van 16 beurten in totaal meer dan 480 punten scoort?
     
  b. Hoe groot is de kans dat het aantal punten dat Yari in diezelfde partij van 16 beurten meer dan 400 maar minder dan 450 punten scoort?
     

c. Hoe groot is de kans dat in een partij van 10 beurten Pieter van Yari wint?
         
4. Een whisky liefhebber heeft op 1 januari een heel vat whisky gekocht met maar liefst 250 liter erin. Het is een echte liefhebber en hij drinkt elke dag wel wat whisky. De hoeveelheid die hij per dag drinkt is normaal verdeeld met een gemiddelde van  150 ml en een standaardafwijking van 25 ml.
         
  a. Bereken de kans dat het vat na precies 1600 dagen leeg is.
         
  De man houdt vooral van Ierse whiskey, en dan met name van het merk Tullamore Dew. Dat bestelt hij bij de destilleerderij in het Ierse stadje Tullamore in het county Offaly.  Toen hij dit vat whisky bestelde heeft hij ook alvast een datum vastgelegd waarop een tweede vat geleverd zal worden.
         
  b. Noem t = 0 de dag dat hij uit zijn eerste vat begon te drinken. Op welk dag kan hij dan uiterlijk zijn tweede vat laten komen als de kans dat hij zonder whisky komt te zitten niet groter dan 1% mag zijn?
         
5. Een datatypist (of data entry medewerker) voert handmatig gegevens in computersystemen in, controleert en verwerkt deze voor digitalisering. Het is een administratieve rol die focust op snelheid, accuraatheid en secuur werken met diverse databestanden.
 
De vereiste of gemiddelde typesnelheid voor een datatypist of iemand die veel met een toetsenbord werkt, wordt meestal uitgedrukt in aanslagen pre minuut (APM).
Gerard is een ervaren datatypist haalt een APM die normaal verdeeld is met een gemiddelde van 290 en een standaardafwijking van 24.
         
  a. Als Gerard op een dag 6 uur bezig is met data invoeren. hoeveel minuten zal hij dan naar verwachting meer dan 325 aanslagen  halen?
         
  Hieronder is de grafiek van een normale verdeling getekend met gemiddelde μ en standaardafwijking σ.
         
 

         
  b. Bij een continue normale verdeling is de kans dat een meting tussen  μ - 2σ en μ - σ ligt ongeveer 13,5%.
Leg dat uit.
         
  c. Bereken in twee decimalen nauwkeurig de kans dat op een willekeurige dag het aantal geboorten
tussen μ - 2σ en μ - σ ligt.
         
 

© h.hofstede (h.hofstede@hogeland.nl)