z-toets bij meerdere metingen

	© h.hofstede (h.hofstede@hogeland.nl)
Meerdere metingen.

Voor een gezonde visstand is het nodig dat er tenminste 5 mg zuurstof per liter water aanwezig is.
Stel je voor dat ik mij zorgen maak over de waterkwaliteit van de sloten in Groningen.
Het natuurbeheer van Groningen beweert dat er gemiddeld 5,2 mg zuurstof per liter water aanwezig is (met een standaarddeviatie van 1,3), maar ik denk dat dat minder is.
Dan kan ik besluiten dat te gaan controleren. Gewoon nameten dus. Het is natuurlijk niet erg wetenschappelijk om dan maar in één sloot ergens één watermonster te nemen en naar aanleiding van de éne meting conclusies te gaan trekken.

Het lijkt veel logischer om een groot aantal monsters uit verschillende sloten te halen, en naar aanleiding van het gemiddelde zuurstofgehalte in die monsters mijn vermoeden te toetsen.

Hoe verandert daardoor het toetsmodel?

Bij het nemen van één monster zou het model er zó uitzien:

H₀: μ = 5,2 met σ = 1,3
H₁: μ < 5,2

Wat wordt er anders aan dit model als ik niet één meting doe, maar bijvoorbeeld het gemiddelde van 40 metingen neem?
Je moet je afvragen:

Wat zegt H₀ over het gemiddelde van 40 metingen?

Ofwel: als iets normaal verdeeld is met (μ = 5,2 met σ = 1,3) hoe is het dan met het gemiddelde van 40 metingen?
Nou, dat hebben we al gehad toen we bespraken hoe het gemiddelde en de standaarddeviatie veranderen als je van dingen het gemiddelde neemt of dingen bij elkaar optelt. Dat stond in deze les, en de conclusie daar was:

n dingen optellen:
μ_som = nμ₁ en σ_som= σ√n

gemiddelde van n dingen nemen:
μ_gem = μ en σ_gem = ^σ/_√n

Voor dit model zou dat de nieuwe H₀ geven: μ = 5,2 en σ = ^1,3/_√40 ≈ 0,206
Als we een significantieniveau van 0.05 nemen, en ik zou als gemiddelde zuurstofgehalte van 40 sloten 4,7 mg/liter gemeten hebben, dan is de overschrijdingskans daarbij: normalcdf(0, 4.7, 5.2, 0.206) = 0,008 en dat is veel kleiner dan 0,05 dus mag ik concluderen dat die 5,2 mg/l die men beweert niet klopt.

Merk nog op dat als ik bij één meting 4,7 zou vinden, de overschrijdingskans gelijk was aan
normalcdf(0, 4.7, 5.2, 1.3) = 0,35. Dat is lang niet genoeg om H₀ te mogen verwerpen.
Ik hoop dat je dat logisch vindt: aan de hand van 40 metingen is het uiteraard eerder toegestaan iets te beweren dan aan de hand van één meting. Dat van die 40 is natuurlijk veel betrouwbaarder.

conclusie:

Als niet één meting is gedaan:

H₀ aanpassen!!!

(Verder blijft alles hetzelfde)

praktische opmerking.
In veel praktische gevallen is wel een gemiddelde bekend, maar geen standaarddeviatie. Vaak wordt dan een schatting van de standaarddeviatie gedaan door te berekenen wat de standaarddeviatie van de steekproef is. Die is echter wel wat groter dan de "echte" standaarddeviatie van de hele populatie (binnen een klein aantal metingen zit nou eenmaal meer willekeurige fluctuatie dan binnen een erg groot aantal). De verdeling is dan niet meer normaal, maar heet een t-verdeling.

OPGAVEN

Bij de Nederlandse Munt worden euromunten gemaakt. De doorsnede van zo'n munt is 22,5 mm.
Omdat zo'n munt in allerlei automaten moet passen mag die diameter niet teveel afwijken. Als er meer dan 2% van de munten van een dagproductie teveel afwijkt moet de machine opnieuw worden afgesteld

Op een dag blijkt dat er uit een steekproef van 1320 munten er 36 teveel afwijken. Moet men daaruit concluderen dat er in de totale dagproductie meer dan 2% teveel afwijkt?
Neem een significantieniveau van 5%

Op een andere dag is er een steekproef van 1750 munten. Bij hoeveel afwijkende munten zal men (met een significantieniveau van 5%) concluderen dat de machine opnieuw moet worden afgesteld?

Een tablet Aspirine-C van de firma Bayer bevat 400 mg acetylsalicylzuur (acetosal) en 240 mg ascorbinezuur (vitamine C) per tablet. Tenminste dat staat erop.
Die eerste stof is de werkzame stof die pijnverlichting geeft. Het blijkt dat de werkelijke hoeveelheid acetylsalicylzuur in een tablet normaal verdeeld is met een gemiddelde van 400 mg en een standaarddeviatie van 12 mg.

Als de hoeveelheid in een tablet minder dan 380 mg wordt, dan werkt het niet goed meer.

Hoe groot is de kans dat een willekeurig gekozen tablet niet goed werkt?

Uiteraard wordt regelmatig gecontroleerd of de gemiddelde hoeveelheid acetylsalicylzuur in een tablet wel 400 mg is.
Een steekproef van 100 tabletten leverde een gemiddelde hoeveelheid acetylsalicylzuur op van 397,5 mg.

Mag hieruit met een significantieniveau van 5% worden geconcludeerd dat het gemiddelde inderdaad minder is dan 400 mg?

Een groenteman verkoopt verse sinaasappelen, die, naar hij beweert, zó supervers zijn dat zij voor 55% uit sap bestaan, met een standaardafwijking van 3%.
In een zak met 35 zulke sinaasappelen meet ik echter een gemiddeld sapgehalte van 54%.
Mag ik daaruit concluderen dat de bewering van de fabrikant overdreven is? Neem een significantieniveau van 10%.

De firma DCM verkoopt pakken "Vital-Green". Dat is een bemestingsmiddel voor grasvelden. Deze pakken hebben volgens DCM een gewicht van 3 kg met een standaardafwijking van 0,2 kg.

De Keuringsdienst van Waren test een aantal van deze pakken en meet een gemiddelde van 2,8 kg.
Men mag met een betrouwbaarheid van 95% aan de hand van deze metingen stellen dat de pakken minder dan 3 kg bevatten.

Uit hoeveel pakken bestond de test van de Keuringsdienst minstens?

Door de aanvoer van zware metalen via kunstmest en dierlijke mest vindt nagenoeg in alle landbouwgebieden ophoping van zware metalen in de bodem plaats. Een normale hoeveelheid zink in onze bodem is bijvoorbeeld 40 ^μ^mol/_gram droge bodem, met een standaarddeviatie van 6 ^μ^mol/_gram.
Een ambtenaar van de milieudienst neemt bij een boerderij een aantal bodemmonsters en meet daarin het zinkgehalte. Hij vindt de volgende waarden:

Mag hij uit deze metingen concluderen dat het zinkgehalte in deze bodem hoger is dan 40 ^μ^mol/_gram? Neem een significantieniveau van 5%.

De supermarkt ALDI beweert dat alle caissières net zolang getraind worden totdat ze een gemiddelde afhandelingtijd aan de kassa van 2 minuten per klant bereiken (met een standaarddeviatie van 0,5 minuut).

Ik geloof daar niets van, want laatst was ik bij de ALDI en toen waren er 5 mensen voor me in de rij, maar moest ik maar liefst 12 minuten wachten voordat ik aan de beurt was.
Mag ik naar aanleiding hiervan inderdaad concluderen dat dat gemiddelde van 2 minuten per klant in werkelijkheid hoger is? (neem een significantieniveau van 5%).