Title: De bootstrap
1- De bootstrap
- Een fundamentele inleiding in de inductieve
statistiek
2Leidend voorbeeld
Onderzoeksvraag Drinken mannelijke RuG
studenten gemiddeld meer bier dan vrouwelijke
RuG studenten? Onderzoek Trek steekproef van
50 m en 50 v en meet biergebruik Je vindt m ?
gemiddeld 8.98 glazen bier per week v ?
gemiddeld 7.14 glazen bier per week Conclusie
Mannelijke studenten drinken gemiddeld 1.84
glazen meer dan vrouwelijke Inductieve
Statistiek Hoe zeker weten we dit? Wat zijn
onze onzekerheidsmarges?
3Op grond van steekproeven schatten we
mannelijke studenten gemiddeld 8.98 glazen
bier, vrouwelijke studenten gemiddeld 7.14
glazen bier. Maar hoe zeker weten we dit?Wat
als we een andere steekproef zouden hebben
gehad? GEEN IDEE ! maar, statistiek is er voor
om je enig idee te geven.
4Een gedachte-experiment vooraf
- Stel we kennen volledige populatie
- Van alle 10200
- Mann. studenten
- aan RuG kennen
- we biergebruik
- (en idem van
- vrouwelijke studenten)
5Wat kan er gebeuren als we een random steekproef
van 50 m. studenten trekken?
steekproef (n50)
gem. 8.98
2e steekproef (n50)
gem. 9.08
6... na bijv. 1000 steekproeven ...
1. Steekproefgemiddelde varieert! 2. Meestal
tussen 8.7 en 9.3
? steekproefgemiddelde is vaak ongelijk aan
populatiegemiddelde, maar wijkt maar in 5 van de
steekproeven meer dan 0.3 af
7 8Het populatiegemiddelde ligt maar in 5 van de
steekproeven meer dan 0.3 af van het
steekproefgemiddelde
- Stel steekproefgemiddelde is 8.8.
- Uitspraak we zijn 95 zeker dat
populatiegemidelde ligt tussen 8.80.3, dus
tussen 8.5 en 9.1 - Gevonden dankzij marge van steekproefgemiddelde
rond populatiegemiddelde waarin 95 van
steekproefgemiddelden valt
9- Dus nodig marge van steekproefgemiddelde rond
populatie-gemiddelde waarin 95 van
steekproefgemn valt - Te verkregen via herhaald stkprftrekken uit
populatie - Maar 1000 maal een (n50) steekproef trekken??
- Praktijk
- 1 (n50) steekproef!!!
- Idee gebruik alleen huidige steekproef om
schatting te krijgen van marges
10Vergelijk ... de Baron Munchausen
trok zichzelf uit moeras aan de lussen van zijn
laarzen (bootstraps)
11Bootstrap-procedure
- Doel
- Verkrijgen van marge van steekproef-
gemiddelde rond populatiegemiddelde - Nodig
- weten wat andere steekproeven voor gemiddelden
kunnen opleveren - Concrete vraag
- wat wordt gemiddelde als score van iedere persoon
in huidige steekproef vervangen door score van
willekeurig persoon uit populatie? - Wat is willekeurig persoon uit populatie?
12Bootstrap filosofie
- Wat is willekeurige persoon?
- Doet er niet toe Alleen diens scores nodig!
- Wat zijn willekeurige scores?
- scores die voorkomen in steekproef!
(realistisch!) - sommige scores gangbaarder dan andere!
- ? willekeurige scoresscores die je willekeurig
uit eigen steekproef trekt!
13score freq
7 4
8 10
9 20
10 13
11 2
12 1
Bootstrap aanpak
Steekproef
gem. 8.98
9
8
9
9
10
10
10
7
9
10
12
11
11
8
10
9
10
7
10
9
10
9
10
12
9
8
9
10
10
10
9
gem. 9.02
Maak alternatieve steekproef door willekeurig
scores uit oorspronkelijke te trekken ?
frequenties ongeveer zelfde!
14Bootstrap aanpak Herhaal deze procedure vaak
(bijv. 1000 keer) 1. Trek nieuwe steekproef met
teruglegging van grootte n uit oorspronkelijke
steekproef 2. Bereken gemiddelde
Bootstrap- steekproef
- Resultaat 1000 bootstrapsteekproefgemiddelden
- Geeft idee van gebruikelijke marge rond
steekproef-gemiddelde bij herhaald trekken uit
steekproef (als stand-in voor populatie)! - We nemen aan dat dit idee geeft van gebruikelijke
marge rond populatiegemiddelde!
15Voorbeeld Gemiddelden van 100 bootstrapsteekproev
en
16Histogram van gemiddelden van 100 bootstrapstkprn
In 95 van bootstrapstkprn ligt gemiddelde
tussen 8.8 en 9.2.
marge (95) rond originele steekproef-gemiddelde
is dus 0.2
17- (95)marge van bootstrapsteekproeven rond
originele steekproefgemiddelde is 0.2 - Aanname scoreverdeling in steekproef
scoreverdeling in populatie dus variatie
in bootstrapsteekproeven even groot als in
steekproeven uit populatie
plug-in voor populatie
18Conclusie voor plug-in populatie liggen 95 van
steekproefgemiddelden binnen marge ?0.2 rond
plug-in gemiddelde ? voor echte populatie
liggen 95 van steekproefgemiddelden binnen
marge ?0.2 rond populatiegemiddelde
- Slotconclusie
- we vonden in steekproef 8.98
- in 95 van gevallen wijkt steekproefgemiddelde
niet meer dan 0.2 af van populatie-gemiddelde - dus zal populatiegemiddelde met 95 zekerheid
niet onder 8.78 of boven 9.18 hebben gelegen!
19- 95 betrouwbaarheidsinterval (95bhi)
- steekproefgemiddelde gevonden marge
- Wat wordt bedoeld met 95 ?
- per steekproef uit populatie 95 kans
stkprfgemiddelde binnen marge rond pop.gem. - Praktijk 100? steekproef uit verschillende
popul. - steekproefgemiddelde ca. 95? binnen (telkens
andere) marge rond populatiegemiddelde - omgekeerd populatiegemiddelde ca. 95? binnen
95bhi - met 95BHI zit je dus ca. 95? goed (en 5? fout!)
20Voorbeeld van 100 steekproeven en 95bhiuit
populatie met zelfde gemiddelde
Meeste intervallen dekken populatiegemiddelde,
maar 6 zitten er naast
21Bootstrap voor allerlei maten
- Bootstrap-procedure alom toepasbaar
- mediaan, Q1, trimmed mean, correlatie,
regressiegewicht, etc., etc. - Aanpak in het algemeen
- trek groot aantal bootstrapsteekproeven (bijv.
1000) uit steekproef - bereken gewenste maat in alle bootstrapstkprn
- bepaal gewenste percentieleninterval(benadering
van betrouwbaarheidsinterval) - Voor bepaalde maten (efficiëntere) klassieke
aanpak beschikbaar