Webquest: Wet van Benford

         
Dit is een statistisch onderzoek  waarin je grote series getallen gaat bewerken met Excel en een onderzoek gaat doen naar de begincijfers daarvan.
         
1.  Gegevenstabel.
   
  Begin met het downloaden van de inwoneraantallen in 2016 en 2017 en de oppervlakten van alle 388 Nederlandse gemeenten.
Dat bestand kun je hier vinden in een WORD-bestand.
Maak er een Excelbestand van dat er zó uitziet:
         

         
  Zorg ervoor dat de kopteksten zichtbaar blijven als je naar beneden scrollt.
         
2.  Inwoners per provincie in 2017.
         
  We willen nu graag de aantallen inwoners per provincie in een staafdiagram weergeven
•  Kopieer deze Exceltabel nu naar een blad 2
•  Sorteer de gegevens naar provincie.
•  Tel vervolgens alle inwoners per provincie in 2017 bij elkaar op.
 
Maak daarmee op blad 2 het volgende staafdiagram:
         
 

         
3.  De oppervlakte van de gemeenten.
         
  Kopieer blad1 nogmaals, nu naar blad3 en bereken daarin de volgende gegevens:
     
  Bereken voor alle gemeenten hoeveel de procentuele toename of afname in het aantal inwoners tussen
1-1-2016 en 1-1-2017 is, en zet die op volgorde van groot naar klein.
Bereken nu of  het gemiddelde van al deze toename/afnamen gelijk is aan de gemiddelde toename /afname van de hele bevolking van Nederland.
Geef een verklaring.
  Bereken van het aantal inwoners per km2  van de gemeenten het gemiddelde en de standaarddeviatie.
         
4.  Draaitabel
 
Maak op een nieuw werkblad (blad4) een eenvoudige draaitabel waarin je de provincies ziet, die kunt uitklappen om alle gemeenten te krijgen.
 
5.  De begincijfers.
         
  Omdat de aantallen inwoners vrij willekeurig zijn ontstaan zou je verwachten dat de begincijfers ervan (1 tm 9) allemaal wel ongeveer even vaak zouden voorkomen.
Maar dat is niet zo!
We gaan dat testen voor de begincijfers van de inwoneraantallen van 2016.

Kopieer blad 1 naar een nieuw blad5. En verberg alle kolommen behalve kolom C (aantallen 2016)
Om het begincijfer van een getal in cel X te berekenen kun je de volgende formule gebruiken:
 
= INTEGER(10^(LOG(X) - INTEGER(LOG(X))))

Zet deze formule maar eens in cel G2 en vervang X nu door C2 en je ziet dat er inderdaad een 2 verschijnt (het eerste cijfer van 25243 is immers een 2).

         
  Zet op deze manier alle begincijfers van kolom C in kolom G.

Nu willen we graag tellen hoeveel enen daar in kolom G staan. Natuurlijk ga je dat niet met de hand tellen, maar laat je Excel dat doen.
Ga in cel H2 staan en toets in:
• tabblad formules -  logisch - ALS dan zie je dit:
         
 

         
  •  Bij logische test vul je in  G2 = 1 want je wilt immers testen of er een 1 staat in cel G2
•  Waarde-als-waar wordt een 1
•  Waarde-als-onwaar wordt een 0

Nu komt er in H2 een 1 te staan als cel G2 een 1 bevat en in de andere gevallen een 0.
Sleep H2 naar beneden en overal verschijnt een 1 als de G-kolom een 1 is.
De enen kun je vervolgens makkelijk onderaan kolom H bij elkaar optellen (het worden er 124)

In de kolommen I, J, K, L, M, N, O, P kun je vervolgens op dezelfde manier gaan testen hoeveel keer het getal 2, 3, 4, 5, 6, 7, 8, 9 in kolom G staat.
Doe dat, en maak van die aantallen tenslotte het volgende diagram:

         
 

         
  Je ziet dat de begincijfers helemaal niet even vaak voorkomen!
 Hûh?.......Wonderbaarlijk!!  
         
   
6.  De wet van Benford
     
  Dit aparte verschijnsel, dat het begincijfer 1 het vaakst voorkomt, daarna 2, daarna 3, enz. heet de "Wet van Benford".
Zoek op internet informatie over deze wet.

Hieronder vind je een paar nuttige sites daarvoor:
         
    https://wetenschap.infonu.nl/wiskunde/158698-de-wet-van-benford-een-inleiding.html
    https://www.inzichten.nl/wetenschap/weten_50.htm
    https://www.nemokennislink.nl/publicaties/1-aan-de-top/
     
         
  Schrijf een kort stukje over deze wet in een WORD bestand. Controleer of de theoretische frequenties van de begincijfers 1 tm 9 overeenkomen met de door jou gevonden frequenties bij onderdeel 4.
 
7.   Eigen onderzoek.
Sla dit onderdeel eerst over als je denkt in tijdnood te komen!
         
  Als je werkblad 4 nu kopieert naar een werkblad 5, dan kun je kolom C vervangen door een andere serie meetgegevens, en daarmee direct weer de wet van Benford controleren. Doe dat op één van deze manieren:
         
  1. Kies de rij getallen 2-4-8-16-32-64-..... in kolom C.  Neem minstens 100 getallen.
         
  2. Zoek op internet een serie getallen en kopieer die naar kolom C.
         
  Je mag natuurlijk ook beiden doen......J
         
8.  Een toepassing.
         
  In   dit bestand  vind je twee begrotingen van twee schoolbesturen (A en B).
Als één van beiden fraude pleegt met de begroting, welk schoolbestuur zou dat dan volgens de wet van Benford het meest waarschijnlijk zijn?
Gebruik weer je excel-blad5, en kopieer dat naar blad6 en blad7.
         
9.  Afsluitend.
         
  Lever je Excel-bestand en je papieren verslag in bij je leraar.