© h.hofstede (h.hofstede@hogeland.nl)

Boxplot
       
Bij het bekijken van de spreiding van een frequentieverdeling (vorige les) kwamen we de kwartielafstand tegen.  Daarbij hoorde het plaatje hiernaast.

De gegevens werden verdeeld in 4  groepen met elk evenveel getallen (dus elk 25% van de getallen).
De kwartielen Q1 en Q3 waren de getallen op de x-as die bij 25% en bij 75% van de metingen lagen. De mediaan ligt bij 50% en die zou je dus het tweede kwartiel Q2 kunnen noemen.

       
Als je het kleinste getal en het grootste getal nou óók meeneemt (als Q0 en Q4 bijvoorbeeld), dan kun je het plaatje onder het histogram hiernaast tekenen.

Zo'n plaatje heet een Boxplot.

Het geeft een redelijk beeld van de spreiding van een verdeling. Beter dan alleen de kwartielafstand, omdat nu toch ook de grootste en kleinste metingen zijn aangegeven.

       
Bedenk goed dat in elk van de vier delen van de boxplot zich 25% van de metingen bevindt. Het "doosje" in het midden bevat dus de helft van alle metingen:
       

       
In het Engels heet deze figuur een "Box-and-Whisker plot";  ofwel letterlijk vertaald een "doosje met snorharen". En inderdaad is een oudere Nederlandse naam ook wel een "snorrendoos" of  "doosdiagram".

OPMERKING voor gevorderden
In de meeste statistische softwarepakketten (zoals het beroemdste SPSS programma)  worden boxplots nog iets anders getekend. De afstand tussen Q1 en Q3 wordt de kwartielafstand genoemd, en punten die nog verder dan 1,5 keer die kwartielafstand van Q3 (naar rechts) of van Q1 (naar links) af liggen worden beschouwd als meetfouten en niet meegerekend. Ze worden vaak apart naast de linker- of  rechterkant van het boxplot aangegeven)
       
Boxplot en Histogram.
       
Er is (natuurlijk) een duidelijk verband tussen de vorm van een boxplot en de vorm van een histogram. Dat kun je het makkelijkst als volgt voorstellen.
Stel dat je een boekenplank hebt met 4 vakjes (de boxplot).
       
       
Stel verder dat je daar 100 boeken op moet leggen  (je metingen), waarbij in elk vakje evenveel boeken moeten komen (dus elk 25). Als je die dan ongeveer in gelijke stapels legt, dan ziet dat er van voren ongeveer zó uit:
       

       
En daar zie je dan ongeveer een histogram.
Dus dit is logisch: 

       
 
                                       
  OPGAVEN.
       
1. Een aantal mensen is gevraagd hoeveel geld ze afgelopen jaarwisseling aan vuurwerk hebben uitgegeven. Dat leverde de volgende serie bedragen op:
       
 

14   25   28   16   50  128   87   92   54   50   40   32   60 
65   75   82   20   54   50   34   45   78   90   90   15   20 
45   48   72   81   32   34   10   10   15   46  156  145  65

       
  Maak van deze bedragen een boxplot.
       
2. Hieronder staan vijf histogrammen (A tm E) met daaronder vijf boxplots (P tm S). Leg uit welk histogram bij welke boxplot hoort.  Doe dat zonder bij elk histogram daadwerkelijk een boxplot te gaan tekenen.
       
 

       
3. Als training voor de Coopertest houdt de gymleraar elk jaar een bosloop. Hieronder zie je twee boxplots waarin de tijden staan die leerlingen nodig hadden voor deze bosloop. Er is een aparte boxplot voor de meisjes en eentje voor de jongens.
       
 

       
  In totaal liepen er 32 jongens en  28 meisjes mee, dus 60 leerlingen.
       
  a. Op welke plaats eindigde het snelste meisje?
       
  b. Rond welk tijdstip kwam er een grote groep tegelijk binnen?
       
  c. Welke tijd liep degene die als 38ste eindigde ongeveer?
       
  d. Wat kun je zeggen over de plaats waarop de langzaamste jongen eindigde?
       
4. examenvraagstuk HAVO wiskunde A, 2002.

Uit de wielersport komen de laatste jaren regelmatig berichten over dopinggebruik. Wielrenners lijken steeds vaker naar verboden middelen te grijpen om hun prestaties te verhogen. Een van de meest genoemde stoffen is erytropoëtine, kortweg EPO. Dit middel bevordert de aanmaak van rode bloedlichaampjes, waardoor de zuurstoftransportfunctie van het bloed wordt vergroot. Je gaat hierdoor beter presteren.
De hematocrietwaarde is de hoeveelheid rode bloedlichaampjes als percentage van de totale hoeveelheid bloed. Die hematocrietwaarde stijgt dus als een wielrenner EPO gaat gebruiken.

Bij een wielerwedstrijd in 1977 heeft men de hematocrietwaarde van een aantal wielrenners gemeten. Daarvan staan de meetresultaten in de volgende tabel.

       
 
Hematocrietwaarde 41 42 43 44 45 46 47 48 49
Frequentie 2 3 5 11 15 8 4 3 2
       
 
Hematocrietwaarde 50 51 52 53 54 55 56 57
Frequentie 1 0 0 1 2 0 0 1
       
  a. Bereken de gemiddelde hematocrietwaarde van deze wielrenners.
       
  Ook in 1988 en 1999 heeft men bij deze wielerwedstrijd van een aantal wielrenners de hematocrietwaarde gemeten.
In 1998 was de gemiddelde hematocrietwaarde 45,9.
De hematocrietwaarden uit 1999 zijn verwerkt in onderstaande boxplot.
       
 

       
  b. Toon aan dat, op grond van de boxplot, de gemiddelde hematocrietwaarde in 1999 zeker groter was dan in 1998.
       
 

© h.hofstede (h.hofstede@hogeland.nl)