Woorden Tellen | ||||||||||||||||||||||||||||||||||||
In ziekenhuizen verschijnen veel rapporten die over de behandeling van patiënten gaan. In dergelijke rapporten komen, naast het gewone taalgebruik, ook veel medische termen voor. Bij twee ziekenhuizen heeft men onderzoek gedaan naar het woordgebruik in deze rapporten. Hiervoor heeft men van 5000 rapporten geteld hoe vaak ieder woord in totaal voorkwam. | ||||||||||||||||||||||||||||||||||||
Deze rapporten bevatten samen 996734 woorden. Toch waren er in totaal slechts ongeveer 20000 verschillende woorden. Dit komt omdat er woorden zijn die heel vaak gebruikt worden. Om je hiervan een idee te geven zie je in de volgende tabel de tien woorden die het meest frequent in de rapporten werden gebruikt. | ||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||
Je ziet dat in de tabel de
woorden op rangnummer, in volgorde van hun frequentie, zijn
genoemd. Zo kun je bijvoorbeeld aflezen dat het woord `met` in totaal
27667 keer is geteld en dat dit woord het rangnummer 4 heeft.
De onderzoekers J.B. Estoup en G.K. Zipf hebben geprobeerd in
allerlei teksten een verband te vinden tussen het rangnummer r van
een woord en de bijbehorende frequentie f. In 1949 vond Zipf de
formule:
|
||||||||||||||||||||||||||||||||||||
Deze formule wordt ook wel de
"wet van Zipf" genoemd. De waarde van C hangt af van het totale aantal woorden in de tekst. Volgens Zipf is C de oplossing van de vergelijking:
De rapporten van het AZM bevatten samen 495378 woorden. |
||||||||||||||||||||||||||||||||||||
3p | 9. | Bereken de waarde van C die bij de rapporten van het AZM hoort. Rond af op duizendtallen. | ||||||||||||||||||||||||||||||||||
Voor de 996734 woorden in de
rapporten van beide ziekenhuizen samen geldt C = 88000. In de
figuur hieronder zijn van alle gebruikte woorden de frequenties uitgezet
tegen de rangnummers. Op beide assen is gekozen voor een logaritmische
schaalverdeling. De woorden uit de tabel hierboven vind je terug als de
bovenste 10 punten. Om de wet van Zipf en de werkelijkheid met elkaar te kunnen vergelijken is in onderstaande figuur ook de grafiek van fr = 88000/r getekend. |
||||||||||||||||||||||||||||||||||||
De wet van Zipf geldt voor algemene teksten zoals krantenartikelen en dergelijke. Omdat medische rapporten niet "algemeen" zijn, vertonen de grafieken opmerkelijke verschillen. Tussen de rangnummers 2 en (ongeveer) 2200 zijn de werkelijke frequenties groter dan de frequenties volgens de wet van Zipf. | |||
4p | 10. | Onderzoek of dit verschil bij r = 100 groter is dan bij r = 500. Licht je antwoord toe. | |
Iemand trekt uit bovenstaande figuur de volgende twee conclusies: | |||
|
|||
4p | 11. | Geeft over elk van deze conclusies een gemotiveerd oordeel. | |
In de figuur hierboven zie je dat er in de medische rapporten woorden voorkomen die dezelfde frequentie hebben. Volgens de wet van Zipf zou dit niet kunnen. Deze wet, fr = 88000/r , zegt dat fr steeds minder snel afneemt naarmate r toeneemt. | |||
4p | 12. | Stel de afgeleide van fr op en toon met deze afgeleide aan dat voor de wet van Zipf inderdaad geldt dat fr steeds minder snel afneemt als r toeneemt. | |
Het Vierde Gewas | |||||||||||||||||||
In de akkerbouw is het
normaal dat een boer op zijn grond niet elk jaar hetzelfde gewas
verbouwt. Om te voorkomen dat ziekteverwekkers in de bodem teveel
invloed krijgen, is het beter in de loop van de jaren verschillende
gewassen te verbouwen.
Het bedrijf Zaanstra heeft 36 ha akkerland. Op 12 ha ervan worden
aardappelen geteeld, op 12 ha suikerbieten en op de overige 12 ha
granen. Een jaar later wordt er op de drie stukken land gewisseld van
gewas en een jaar later nog een keer. Zo wordt elk gewas eens per drie
jaar op elk stuk grond verbouwd. Bij het bedrijf overweegt men nog een gewas te gaan telen en het
akkerland dus te verdelen over vier gewassen, elk 9 ha. Dan krijgen
ziekteverwekkers nog minder kans en dat verhoogt de kwaliteit van de
oogst. |
|||||||||||||||||||
3p | 13. | Laat zien dat het getal 189 juist is. | |||||||||||||||||
Voor dit vierde gewas heeft het bedrijf de keuze uit verschillende plantensoorten, waarvan de zaden veel bruikbare oliën en vetten bevatten. In de volgende tabel staan enkele gegevens over deze plantensoorten. | |||||||||||||||||||
|
|||||||||||||||||||
Voor het bewaren van de oogst
van deze gewassen beschikt het bedrijf over een koelruimte waar men ten
hoogste 8400 kg zaden kan opslaan.
We kunnen de conclusie trekken dat het voor Zaanstra niet mogelijk is de 9 ha helemaal te gebruiken voor de teelt van slechts één van de drie plantensoorten akkermoesbloem, komkommerkruid of teunisbloem. |
|||||||||||||||||||
3p | 14. | Toon dit aan. | |||||||||||||||||
We willen nagaan welke
verdeling van de beschikbare 9 ha grond over de drie plantensoorten de
grootst mogelijke opbrengst oplevert. Het aantal ha dat wordt gebruikt
voor akkermoesbloem geven we aan met x, dat voor komkommerkruid
met y en dat voor teunisbloem dus met 9 - x - y. Naast de voorwaarden x ³ 0 en y ³ 0 gelden voor mogelijke oplossingen ook de voorwaarden: I: x + y ≤ 9 II: x ≤ 6 III: 8x + 2y ≥ 27 |
|||||||||||||||||||
5p | 15. | Toon aan dat de voorwaarden II en III volgen uit bovenstaande gegevens. | |||||||||||||||||
8p | 16. | Onderzoek bij welke verdeling van de grond over de drie plantensoorten de jaarlijkse opbrengst voor Zaanstra zo groot mogelijk is. | |||||||||||||||||
Al doende leert men | |||||||||||||||||
In de Amerikaanse industrie is ooit
onderzocht hoe snel werknemers leren wanneer zij een handeling vaker
verrichten. Bij een groot aantal werknemers is bijgehouden hoeveel tijd ze
nodig hadden om een bepaalde handeling voor de eerste keer te verrichten,
hoeveel tijd voor de tweede keer, enz.
Zo bleken werknemers 16 minuten nodig te hebben om handeling A voor de eerste keer te verrichten. Bij de tweede keer was die handelingstijd 12,8 minuten. Dus wanneer een werknemer handeling A twee keer heeft uitgevoerd is zijn gemiddelde handelingstijd (16 + 12,8)/2 = 14,4 minuten. Deze 14,4 minuten zie je in de volgende tabel. De andere waarden in deze tabel zijn op een vergelijkbare manier berekend. |
|||||||||||||||||
|
|||||||||||||||||
Met behulp van deze tabel kunnen we berekenen dat een werknemer 8,1 minuten nodig heeft om handeling A voor de 5e keer te verrichten. | |||||||||||||||||
3p | 17. | Geef zo'n berekening. | |||||||||||||||
We willen een formule opstellen
voor de gemiddelde handelingstijd Hn. Daartoe kijken we eerst naar de tijd Tn die een werknemer nodig heeft om handeling A voor de nde keer te verrichten. Tn kan goed benaderd worden met de volgende formule:
In deze formule is Tn in minuten. Inderdaad levert
deze formule T1 ≈ 16 en T2
≈ 12,8. |
|||||||||||||||||
3p | 18. | Hoeveel minuten is de handelingstijd op den duur korter dan de eerste handelingstijd? Licht je antwoord toe. | |||||||||||||||
Om een formule voor Hn
op te stellen merken we op dat geldt: We moeten dus eerst de som T1 + T2 + T3 + ... + Tn van de
eerste n termen berekenen. |
|||||||||||||||||
6p | 19. | Leid deze formule af met behulp van de formule voor Tn. | |||||||||||||||
We noemen een werknemer ervaren
voor handeling A wanneer de gemiddelde handelingstijd minder dan 7
minuten is. In de industrie wil men graag weten hoe lang het duurt voordat een werknemer zo ver is gekomen. |
|||||||||||||||||
3p | 20. | Onderzoek hoeveel handelingen een werknemer achter elkaar moet uitvoeren volgens de formule voor Hn voordat hij ervaren voor handeling A kan worden genoemd. |
OPLOSSINGEN | |
Het officiële (maar soms beknoptere) correctievoorschrift kun je HIER vinden. Vooral handig voor de onderverdeling van de punten. | |
1. | De kans dat een auto
niet gekeurd wordt is 0,97. De kans dat geen één van vijf auto's wordt gekeurd is dan 0,975 = 0,8587 |
2. | Het aantal foute
keuringen moet dan 1 of 0 zijn. binomcdf(5, 0.2 , 1) = 0,7373 of binompdf(5, 0.2 , 0) + binompdf(5, 0.2 , 1) = 0,7373 |
3. | De kans op 1,5
strafpunten is 0,1 en de kans op 0,4 bonuspunten is 0,9. Gemiddeld geeft dat per auto -1,5 • 0,1 + 0,4 • 0,9 = 0,21 punten. Voor 8 auto's zal dat gemiddeld 8 • 0,21 = 1,68 punten opleveren. |
4. | Voor een schatting
van de gemiddelde levensduur doen we alsof alle metingen zich bij het
klassenmidden bevinden. De klassenmiddens zijn : 2,5 en 7,5 en 12,5 en 17,5 en 22,5 De percentages zijn ongeveer (aflezen) : 3, 10, 68, 18 en 1 Het gemiddelde is dan (2,5 • 3 + 7,5 • 10 + 12,5 • 68 + 17,5 • 18 + 22,5 • 1)/100 = 12,7 (invoeren in L1 (middens) en L2 (percentages) en dan 1-var-stats (L1,L2) kan natuurlijk ook) |
5. | één mogelijke
volgorde is eerst 2 klaveren en dan 11 anderen. De kans daarop is (13/52) • (12/51) • (39/50) • (38/49) • (37/48) • (36/47) • ... • (29/40) ≈ 0,00264 Er zijn 13 nCr 2 = 78 zulke volgorden De kans wordt dan 78 • 0,00264 ≈ 0,2059 of kies 2 klaveren uit de 13; dat kan op 13 nCr 2 = 78 manieren kies 11 andere kaarten uit de 39. Dat kan op 39 nCr 11 = 1676056044 manieren. samen kan dat op 78 • 1676056044 = 1,307 • 1011 manieren. in totaal zijn er 52 nCr 13 = 6,35 • 1011 manieren om 13 willekeurige kaarten uit de 52 te kiezen. De kans dat het 2 klaveren en 11 anderen wordt is dan (1,307 • 1011)/( 6,35 • 1011) = 0,2059 |
6. | De kans op geen
klaveren is 0,013 1 van de 10 keer heeft dan kans binompdf(10 , 0.013 , 1) = 0,1156 of: kans op geen klaveren in 0,013, en op wel dus 1 - 0,013 = 0,987 1 van de 10 heeft dan kans 10 nCr 1 • 0,0131 • 0,9879 = 0,1156 |
7. | de cumulatieve
aantallen zijn 130, 932, 2992, 5857, 8242, 9487, 9901, 9988, 10000 de percentages zijn dan ongeveer: 1,3 - 9,3 - 29,9 - 58,6 - 82,4 - 94,9 - 99,0 - 99,9 - 100 daarbij horen de x-waarden 0,5 - 1,5 - 2,5 - 3,5 - 4,5 - 5,5 - 6,5 - 7,5 - 8,5 teken deze punten op normaal-waarschijnlijkheidspapier, dan geeft dat (ongeveer) een rechte lijn. daarom zijn deze metingen ongeveer normaal verdeeld. Douwes vermoeden is dus juist. |
8. | H0:
μ = 325, σ =
1,365 Maar voor 100 spellen wordt dat H0: μ = 325, σ = 1,365 • √100 = 13,65 H1 : μ < 325, dus de toets is éénzijdig. De meting is 302.5 De overschrijdingskans is normalcdf(0, 302.5, 325, 13.65) = 0,0496 Dat is kleiner dan 0,05 dus H0 moet worden verworpen: er is inderdaad voldoende aanleiding om te veronderstellen dat 'Split' Bert te weinig klaverenkaarten geeft. |
9. | 2,3• C • logC =
495378 Deze is niet algebraïsch op te lossen. Dus Y1 = 2,3 • X • logX en Y2 = 495378 Dan intersect levert (met bijv. window Xmin = 0, Xmax = 100000, Ymin = 0, Ymax = 1000000): X = C = 46175,539 en dat is afgerond op duizendtallen 46000 |
10. | Bij r = 100
is het verschil ongeveer 1800 - 800 = 1000 Bij r = 500 is het verschil ongeveer 350 - 150 = 200 Dus het verschil bij r = 100 is groter dan bij r = 500 |
11. | Het gedeelte van de
grafiek boven de rechte lijn heeft een grotere frequentie dan Zipf
voorspelt. Dat zijn de rangnummers 2 tot (ongeveer) 2200, dus dat zijn ongeveer 2200 woorden en dat is minder dan de de helft van het totaal (20000 woorden) dus stelling 1 is onwaar De Zipf-lijn loopt verder naar rechts door dan de werkelijke lijn, dus Zipf omschrijft situaties met meer woorden, dus stelling 2 is waar. |
|
12. | fr
= 88000 • r -1 f 'r = -88000 • r -2 deze laatste uitdrukking is altijd negatief, dus is de grafiek van fr altijd dalend. maar f 'r gaat steeds dichter naar nul toe, dus de helling van fr ook, dus wordt fr steeds minder dalend. |
|
13. | In totaal zijn er 19
• 12 + 20 • 12 + 24 • 12 = 756 werkdagen in een jaar. Voor aardappelen, suikerbieten en granen zijn al 9 • 19 + 9 • 20 + 9 • 24 = 567 dagen nodig Dus zijn nog 756 - 567 = 189 dagen over voor de nieuwe gewassen. |
|
14. | akkermoesbloem heeft
een totale oogst van 9 • 1000 = 9000 kg en dat is teveel (meer dan
8400) komkommmerkruid vergt 9 • 22 = 198 werkdagen en dat is teveel (meer dan 189) teunisbloem vergt 9 • 24 = 216 werkdagen en dat is teveel (meer dan 189) |
|
15. | de totale oogst
wordt x • 1000 + y • 800 + (9 - x - y)
• 800 = 1000x + 800y + 7200 - 800x - 800y dat is 200x + 7200 en dat moet minder zijn dan de opslagcapaciteit 8400 200x + 7200 ≤ 8400 ⇒ 200x ≤ 1200 ⇒ (delen door 200) ⇒ x ≤ 6 Het totale aantal werkdagen wordt 16
• x + 22 • y + 24 • (9 - x - y) = 16x
+ 22y + 216 - 24x - 24y |
|
16. | Teken de vijf
grenslijnen die boven opgave 15 staan in een toelaatbaar gebied: Hoekpunten: A = (3.375 , 0) B =
(6,0) C = 6,3) |
17. | Vijf keer
handeling A kost in totaal 5 • 11,3 = 56,5 minuten Vier keer handeling A kost in totaal 4 • 12,2 = 48,4 minuten. Dus kostte de vijfde keer 56,5 - 48,4 = 8,1 minuten. |
18. | Als n
oneindig groot wordt, dan wordt Tn gelijk aan 6. De eerste handelingstijd was 16 minuten, dus de winst is 10 minuten. |
||
19. | n keer het
constante getal 6 levert in totaal 6n
de meetkundige rij heeft begingetal 10 en reden 0,68.
De totale som wordt dan 6n +
31,25 • (1 - 0,68)n |
||
20. | H = 7 moet opgelost
worden. voer in Y1 = H en Y2 = 7 en gebruik calc - intersect om het snijpunt te vinden Dat geeft X = 32 |
||