© h.hofstede (h.hofstede@hogeland.nl)

 
Welke methode wanneer gebruiken?
 
We hebben nu vier verschillende manieren bekeken om de verschillen tussen twee groepen weer te geven.
Dat zijn:
  •  Phi-coëfficiënt.
•  Max Vcp.
•  Effectgrootte.
•  Boxplots.
       
Soms kun je om groepen te vergelijkingen meerdere van deze berekeningen toepassen, en kun je dus kiezen welke de handigste is.
Een paar dingen om om te denken:
       
Bij nominale variabelen zul je de phi-coëfficiënt moeten gebruiken. In die gevallen moet je dus een kruistabel hebben of maken.
Als je een standaardafwijking hebt dan zou ik ervoor kiezen om de effectgrootte te berekenen.
Bij gegeven frequentietabellen is het het meest handig om max Vcp te berekenen of boxplots te vergelijken. Welk van beiden, dat maakt niet zoveel uit.
       
Alles-in-één voorbeeld.
       

Gegevens over het gemiddeld aantal gedronken glazen bier per week van Nederlandse en Belgische volwassenen leverde de volgende tabel:

Glazen per week

0

1

2

3

4

5

6

7

8

BELGIE

40

52

83

121

200

354

403

202

158

NEDERLAND

31

32

44

46

65

88

100

105

109

 

Glazen per week

9

10

11

12

13

14

15

16

17

BELGIE

100

94

92

76

70

64

64

57

42

NEDERLAND

214

326

450

302

225

145

120

60

24


 

Glazen per week

18

19

20

21

22

23

24

25

BELGIE

22

20

18

17

10

8

8

4

NEDERLAND

18

14

12

12

12

9

5

1


Iemand wordt als alcoholist beschouwd als hij gemiddeld meer dan 15 glazen bier per week drinkt.
Neem aan dat de standaardafwijking in de gehele populaties steeds gelijk is aan de standaardafwijking in deze steekproeven.

Laten we al onze statistische technieken op deze gegevens toepassen.

1.  Betrouwbaarheidsinterval van een percentage.

Als je het aantal alcoholisten in België bekijkt dan zijn dat er 206 van de 2379  en dat is 8,66%
De proportie is dan 0,0866
Voor het 95% betrouwbaarheidsinterval van deze proportie bereken je dan

       

       
Dat geeft het 95%-betrouwbaarheidsinterval  [0.0866 - 0,0115 ; 0.0866 + 00115] = [0.0715 ; 0.0981]
       

2.  Betrouwbaarheidsinterval van een gemiddelde.

Als je het gemiddelde aantal glazen in Nederland met je GR berekent dan voer je in:
STAT - EDIT
L1 = 0, 1, 2, ..., 25
L2 = 31, 32, 44, ..., 1
STAT - CALC - 1VarStats geeft dan   gemiddelde 10,41 met standaardafwijking 3,94  (en aantal metingen n = 2569)

Voor het 95% betrouwbaarheidsinterval van dit gemiddelde bereken je dan

       

       
Dat geeft het 95%-betrouwbaarheidsinterval   [10.41 - 0.16 ; 10.41 + 0.16] = [10.25 ; 10.57]
       

3.  Max Vcp.

Laten we het MaxVcp van het verschil tussen Nederland en België gaan berekenen, met klassenindelingen van breedte 5.

       

 

Nederland

België

 

frequentie

procenten

cumulatief

frequentie

procenten

cumulatief

[0, 5ñ

218

8,49

8,49

496

20,85

20,85

[5, 10ñ

616

23,98

32,47

1217

51,16

72,01

[10, 15ñ

1448

56,36

88,83

396

16,65

88,66

[15, 20ñ

236

9,19

98,02

205

8,62

97,29

[20, 25ñ

50

1,95

99.97

61

2,56

99,84

25

1

0,04

100

4

0.17

100

 

2569

100

 

2379

100

 

       
De verschillen tussen de rode kolommen zijn  12,36 - 39,69 - 0,17 - 0,73 - 0,13 - 0
MaxVcp is gelijk aan 39,69 dus het verschil is MIDDELMATIG.
       
4.  Effectgrootte

Bereken met de effectgrootte of het verschil tussen het gebruikte aantal glazen in Nederland en België gering, middelmatig of groot is.

Nederland gaf een gemiddelde van 10,41 glazen met een standaardafwijking van 3,94
België geeft een gemiddelde van  7,82 glazen met een standaardafwijking van 4,72
       

       
E ligt tussen 0,4 en 0,8 dus het verschil is MIDDELMATIG.
       
5.  Boxplots

Bereken met boxplots  of het verschil tussen België en Nederland  gering, middelmatig of groot is.

De lijsten van de vorige berekening geven ook de de kwartielen en de mediaan:
Nederland:  Q1 = 9,   Med = 11,  Q3 = 13
België:  Q1 = 5,  Med = 6,  Q3 = 10

Dat geeft de volgende boxen:
       

       

De boxen overlappen wel, maar de medianen liggen buiten de andere box,  dus het verschil is MIDDELMATIG

       
6.  Phi-coëfficiënt.

Bereken met de phi-coëfficiënt of het verschil tussen het aantal alcoholisten in België en Nederland  gering, middelmatig of groot is.
Wel of geen alcoholist zijn geeft de volgende kruistabel:
       

 

Wel alcoholist

Geen alcoholist

 

België

206

2173

2379

Nederland

167

2402

2569

 

373

4575

 

       

       
Dat is kleiner dan 0,2 dus het verschil is dus GERING.
       
Zo, dan hebben we alles uit dit hoofdstuk weer even herhaald........
       
 
                                       
  OPGAVE.
       
1. Het Cito heeft van een groot aantal middelbare school leerlingen de eindcijfers op het vak Nederlands verzameld.
Die gegevens zijn uitgesplitst naar jongens en meisjes, en dat gaf de volgende tabel:
       
 
eindcijfer 3 4 5 6 7 8 9 10
jongens 12 38 56 89 143 101 21 3
meisjes 5 23 67 87 169 189 56 6
       
  a. Geef een 95%-betrouwbaarheidsinterval voor het percentage onvoldoendes bij de meisjes en jongens samen.
       
  b. Geef een 95%-betrouwbaarheidsinterval voor het gemiddelde cijfers van de jongens
       
  c. Bereken met Max Vcp of het verschil tussen de jongens en meisjes gering, middelmatig of groot is.
       
  d. Bereken met de Effectgrootte of het verschil tussen de jongens en meisjes gering, middelmatig of groot is.
       
  e. Bereken met de Boxplots of het verschil tussen de jongens en meisjes gering, middelmatig of groot is.
       
  f. Bereken met de phi-coëfficiënt of het verschil in aantal voldoendes tussen meisjes en jongens gering, middelmatig of groot is.
       
2.

De Wiskunde Kangoeroe is een reken- en wiskundewedstrijd voor basis- en middelbare scholen.
In 1980 werd in Australië voor het eerst zo'n soort wiskundewedstrijd georganiseerd. Het succes inspireerde enkele Franse wiskundigen om ook zoiets te doen. In de zomer van 1994 is de organisatie van de Kangoeroe in Frankrijk gestart. Als eerbetoon noemden ze hun wedstrijd Kangourou.  In Nederland heet de wedstrijd Wereld Wijde Wiskunde Wedstrijd Kangoeroe, afgekort tot W4 Kangoeroe.

  In 2016 deden er 6,5 miljoen scholieren mee uit 60 landen.
WizBrain is de versie voor leerlingen van klas 1 en 2 van HAVO/VWO
In onderstaande tabel zie je de resultaten uit 2020 van de deelnemers aan Wizbrain uit België en Nederland, gesplitst naar jongens en meisjes.
       
 

 

meisjes

jongens

 

gemiddelde
score

standaard
afwijking

aantal
deelnemers

gemiddelde
score

standaard
afwijking

aantal
deelnemers

België

68

19

456

59

14

621

Nederland

65

20

832

51

12

460

       
  We hebben hier onder anderen te maken met de variabelen "geslacht"  (meisje-jongen) en "land"  (België-Nederland).
       
  a. Zijn deze variabelen nominaal of ordinaal?  Leg duidelijk uit waarom.
       
  b. Als je niet naar de scores zelf kijkt, maar alleen maar naar de aantallen jongens en meisjes die deelnamen,  is het verschil in jongens en meisjes tussen  Nederland  en België dan gering, middelmatig of groot?
       
  c.

Is het verschil tussen de gemiddelde scores van de meisjes en van de jongens in Nederland  gering,  middelmatig, of groot?

       
 

Hieronder  zie je vier cumulatieve frequentiepolygonen van de scores van de meisjes uit vier verschillenden landen.
Eén van die vier frequentiepolygonen gaat over de meisjes uit Nederland.

       
 

       
  d. Leg duidelijk uit welk frequentiepolygoon klopt met het gegeven gemiddelde én de standaardafwijking van de meisjes in Nederland
       
  e. Bepaal met behulp van boxplots of de verschillen tussen de scores uit de diagrammen C en D  gering, middelmatig of groot zijn
       
3. Twee groepen van 1000 HBO-studenten en 1000 Universiteits-studenten is gevraagd om een poos een stappenteller te dragen en bij te houden hoeveel stappen er gemiddeld per dag werden gezet.
Dat leverde de volgende tabel op:
       
 

gemiddeld aantal stappen per dag

HBO 

Universiteit 

2000 -< 4000

42

71

4000 -< 6000

96

243

6000 -< 8000

144

346

8000 -< 10000

251

102

10000 -< 12000

332

81

12000 -< 14000

103

60

14000 -< 16000

22

47

16000 -< 18000

10

50

       
  Het gemiddelde van de HBO-studenten is ongeveer gelijk aan 9400 stappen en de standaardafwijking is 2800 stappen.
Je zou deze twee getallen nauwkeuriger kunnen berekenen.
       
  a. Bereken deze twee getallen nauwkeuriger.
       
  b. Leg duidelijk uit waarom zo'n nauwkeuriger  berekening niet zinvol is.
       
  c. Bereken het 95%-betrouwbaarheidsinterval van het gemiddelde aantal stappen van de HBO-studenten.
       
  d. Bereken met het Max Vcp of het verschil in stappen tussen deze twee groepen gering, middelmatig of groot is.
       
4.

De Nijmeegse Vierdaagse, officieel de Internationale Vierdaagse Afstandsmarsen Nijmegen, is een vierdaags wandelevenement dat sinds 1909 ieder jaar wordt gehouden en start op de derde dinsdag van juli. De Nijmeegse Wandelvierdaagse is de oudste en meest bekende Vierdaagse in Nederland. Het is de grootste meerdaagse wandelprestatietocht ter wereld en staat inmiddels ook bekend als The Walk of the World. Elk jaar doen er deelnemers uit circa tachtig landen mee, onder wie een groot aantal militairen.  De aantallen deelnemers in 2019 zie je in de volgende tabel.

       
 

 

Nederland

Andere Landen

 

gemiddelde
leeftijd

standaard
afwijking

aantal
deelnemers

gemiddelde
leeftijd

standaard
afwijking

aantal
deelnemers

Militair

32,0

6,0

4320

39,9

5,1

1182

Niet-Militair

44,5

12,3

31645

41,6

10,1

8737

       
       
  a. Bereken of het verschil in aantallen militairen en niet-militairen die deelnemen tussen Nederland en de Andere Landen groot, middelmatig of gemiddeld is.
       
  b. Bereken de gemiddelde leeftijd van alle deelnemers.
   
 

Neem aan dat de leeftijden van de deelnemende Nederlandse militairen normaal verdeeld waren.

       
  c. Bereken hoeveel deelnemende Nederlandse militairen dan een leeftijd tussen de 26 en 44 jaar hadden.
       
  d. Bereken of het verschil tussen de leeftijden van de militairen van Nederland en de militairen uit de Andere Landen groot, klein of middelmatig is.
       
5.

Een aantal dagen is de gemiddelde dagtemperatuur gemeten in de steden Parijs en Kopenhagen.

Hieronder  zie je van de resultaten daarvan in één figuur twee relatieve cumulatieve frequentiepolygonen.

       
 

       
 

Eén van beiden hoort bij een normale verdeling.

       
  a. Leg duidelijk uit welk van beiden bij een normale verdeling hoort, en geef  ook aan hoe de verdeling van de andere wordt genoemd. 
       
  b. Bepaal het MaxVcp van deze verdelingen en leg daarmee uit of het verschil tussen de temperaturen in deze twee steden groot, middelmatig of klein is.
       
  c. Bepaal met boxplots of het verschil tussen de temperaturen in deze twee steden groot, middelmatig of klein is.
       
     

© h.hofstede (h.hofstede@hogeland.nl)