Wolna encyklopedia
Bootstrap (z ang. pull oneself up by one's bootstraps - wydobyć się z opresji własnymi siłami) - w statystyce opracowana przez Bradleya Efrona metoda szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby. Jest przydatna szczególnie, gdy nie jest znana postać rozkładu zmiennej w populacji. Ponieważ bootstrap w podstawowej wersji nie czyni założeń co do rozkładu w populacji, może być zaliczony do metod nieparametrycznych.
Spis treści |
Próba bootstrap
Próbą bootstrap (lub próbą typu bootstrap) nazywamy n-elementową próbę losową
z rozkładu pewnej ustalonej n-elementowej próby
z populacji Ω
Innymi słowy jest to próba powstała przez losowanie ze zwracaniem n elementów z
.
Zasada bootstrap
Niech T będzie pewną statystyką, dającą się przedstawić jako funkcja dystrybuanty:
i w przypadku zastosowania do rozkładu empirycznego jej wynikiem jest estymator θ:
Warunki te spełnia szeroka klasa statystyk.
Zasada bootstrap mówi, że rozkład statystyki
przy ustalonej realizacji X jest bliski rozkładowi statystyki
czyli rozkładowi błędów estymacji parametru θ w populacji.
Metoda bootstrap
Zgodnie z zasadą bootstrap w celu oszacowania rozkładu błędów estymacji, należy:
- wielokrotnie (k razy) wylosować niezależne próby losowe bootstrap
na postawie jednej realizacji
. - obliczyć dla nich wartości:
Otrzymany rozkład
jest przybliżeniem rozkładu błędów estymacji za pomocą statystyki T zastosowanej do próby n-elementowej parametru θ w populacji.
Liczba k powinna być możliwie duża (im większa tym dokładniejsze oszacowanie). W literaturze podawane są coraz większe liczby, w miarę jak rosną możliwości obliczeniowe komputerów.
Błąd standardowy typu bootstrap
Histogram uzyskanego rozkładu błędów można przedstawić na wykresie. Można też obliczyć dla niego rozmaite dalsze statystyki, takie jak błąd standardowy:
gdzie
Przedziały ufności typu bootstrap
Najprostszą metodą stworzenia przedziału ufności estymatora za pomocą rozkładu
jest przybliżenie go rozkładem normalnym. Jest to metoda bardzo prosta, poszukiwany przedział ma postać:
Metoda ta nie zawsze daje się jednak zastosować, gdyż często błąd nie ma rozkładu normalnego. Wymaga ona zatem sprawdzenia normalności rozkładu i arbitralnej decyzji, czy jest on wystarczająco normalny.
Alternatywną metodą jest percentylowy przedział ufności typu bootstrap, który może być stosowany przy dowolnej postaci rozkładu błędów:
gdzie
to kwantyl rzędu α z rozkładu 
Jeszcze inna metoda postuluje najpierw wykonanie studentyzacji rozkładu przed wyliczeniem przedziału percentylowego. To, która metoda daje najdokładniejsze wyniki, zależy od typu rozkładu w populacji (w szczególności obecności obserwacji odstających) oraz założonej metody oceny dokładności.
Testowanie hipotez metodą bootstrap
Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.
Na przykład, gdy hipotezą zerową jest wartość oczekiwana w populacji μ = 10, a w próbie uzyskaliśmy średnią
wówczas p-wartość jest prawdopodobieństwem, że średnia z próby będzie się różniła od średniej w populacji o co najmniej 10-9.23=0.77. Prawdopodobieństwo to można oszacować, losując próby bootstrap z
i sprawdzając w jakim odsetku losowań średnia wykracza poza przedział
.
Odmiany metody
Istnieje wiele odmian bootstrapu. W jednej z nich próby bootstrap nie są losowane bezpośrednio z próby
lecz z rozkładu podobnego do rozkładu
lecz z wygładzoną dystrybuantą.
Istnieją też bardziej skomplikowane procedury bootstrapu dla próbkowania bez zwracania, problemów obejmujących dwie próby, regresji, szeregów czasowych, próbkowania hierarchicznego i innych problemów statystycznych.
Odmiana bootstrapu, zwana bagging jest stosowana przy konstruowaniu modeli klasyfikacyjnych i regresyjnych, ograniczając zjawisko przeuczenia (Breiman 1984).
Bibliografia
- Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2001, ss. 445-454.
- Bradley Efron: The jackknife, the bootstrap, and other resampling plans. Philadelphia: Pa. Society for Industrial and Applied Mathematics, 1982.
- L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone: Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.
Linki zewnętrzne
- (en) Bootstrap Sampling Tutorial: wprowadzenie do bootstrapu z użyciem Excela
- (en) Bootstrap tutorial from ICASSP 99: podręcznik napisany z punktu widzenia przetwarzania sygnałów











