Wolna encyklopedia

Bootstrap (z ang. pull oneself up by one's bootstraps - wydobyć się z opresji własnymi siłami) - w statystyce opracowana przez Bradleya Efrona metoda szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby. Jest przydatna szczególnie, gdy nie jest znana postać rozkładu zmiennej w populacji. Ponieważ bootstrap w podstawowej wersji nie czyni założeń co do rozkładu w populacji, może być zaliczony do metod nieparametrycznych.

Spis treści

Próba bootstrap

Próbą bootstrap (lub próbą typu bootstrap) nazywamy n-elementową próbę losową \mathbf{X}^* z rozkładu pewnej ustalonej n-elementowej próby \mathbf{X}=(x_1,x_2,\dots,x_n) z populacji Ω

Innymi słowy jest to próba powstała przez losowanie ze zwracaniem n elementów z \mathbf{X}.

Zasada bootstrap

Niech T będzie pewną statystyką, dającą się przedstawić jako funkcja dystrybuanty:

\theta=T(F)\;

i w przypadku zastosowania do rozkładu empirycznego jej wynikiem jest estymator θ:

\widehat{\theta}=T(\widehat{F})\;

Warunki te spełnia szeroka klasa statystyk.

Zasada bootstrap mówi, że rozkład statystyki

T(F(\mathbf{X}^*))- T(F(\mathbf{X}))\;

przy ustalonej realizacji X jest bliski rozkładowi statystyki

T(F(\mathbf{X}))- T(F(\Omega))\;

czyli rozkładowi błędów estymacji parametru θ w populacji.

Metoda bootstrap

Zgodnie z zasadą bootstrap w celu oszacowania rozkładu błędów estymacji, należy:

  1. wielokrotnie (k razy) wylosować niezależne próby losowe bootstrap \mathbf{X}_1^*, \mathbf{X}_2^*,\dots, \mathbf{X}_k^* na postawie jednej realizacji \mathbf{X}.
  2. obliczyć dla nich wartości:
    \widehat{\theta}_1^*=T(F(\mathbf{X}_1^*))-\widehat{\theta},
    \widehat{\theta}_2^*=T(F(\mathbf{X}_2^*))-\widehat{\theta},
    \dots,
    \widehat{\theta}_k ^* =T(F(\mathbf{X}_k^*))-\widehat{\theta}

Otrzymany rozkład (\widehat{\theta}_1^*, \widehat{\theta}_2^*, \dots, \widehat{\theta}_k^*) jest przybliżeniem rozkładu błędów estymacji za pomocą statystyki T zastosowanej do próby n-elementowej parametru θ w populacji.

Liczba k powinna być możliwie duża (im większa tym dokładniejsze oszacowanie). W literaturze podawane są coraz większe liczby, w miarę jak rosną możliwości obliczeniowe komputerów.

Błąd standardowy typu bootstrap

Histogram uzyskanego rozkładu błędów można przedstawić na wykresie. Można też obliczyć dla niego rozmaite dalsze statystyki, takie jak błąd standardowy:

\operatorname{SE}_{\widehat{\theta}^*}=\sqrt{\frac{1}{k-1}\sum\limits_{i=1}^{k}(\widehat{\theta}_i^*-\overline{\theta^*})^2}

gdzie

\overline{\theta^*}=\frac{\sum\limits_{i=1}^k \theta_i^*}{k}

Przedziały ufności typu bootstrap

Najprostszą metodą stworzenia przedziału ufności estymatora za pomocą rozkładu \widehat{\theta}^* jest przybliżenie go rozkładem normalnym. Jest to metoda bardzo prosta, poszukiwany przedział ma postać:

\left( \widehat{\theta}-z_{1-\tfrac{\alpha}{2}}\operatorname{SE}_{\widehat{\theta}^*},\ \ \widehat{\theta}+z_{1-\tfrac{\alpha}{2}}\operatorname{SE}_{\widehat{\theta}^*}\right)

Metoda ta nie zawsze daje się jednak zastosować, gdyż często błąd nie ma rozkładu normalnego. Wymaga ona zatem sprawdzenia normalności rozkładu i arbitralnej decyzji, czy jest on wystarczająco normalny.

Alternatywną metodą jest percentylowy przedział ufności typu bootstrap, który może być stosowany przy dowolnej postaci rozkładu błędów:

\left( \widehat{\theta}-q_{1-\tfrac{\alpha}{2}}^*,\ \ \widehat{\theta}+q_{1-\tfrac{\alpha}{2}}^*\right)

gdzie q_\alpha^* to kwantyl rzędu α z rozkładu \widehat{\theta}^*-\widehat{\theta}

Jeszcze inna metoda postuluje najpierw wykonanie studentyzacji rozkładu przed wyliczeniem przedziału percentylowego. To, która metoda daje najdokładniejsze wyniki, zależy od typu rozkładu w populacji (w szczególności obecności obserwacji odstających) oraz założonej metody oceny dokładności.

Testowanie hipotez metodą bootstrap

Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.

Na przykład, gdy hipotezą zerową jest wartość oczekiwana w populacji μ = 10, a w próbie uzyskaliśmy średnią \overline{\mathbf{X}}=9.23, wówczas p-wartość jest prawdopodobieństwem, że średnia z próby będzie się różniła od średniej w populacji o co najmniej 10-9.23=0.77. Prawdopodobieństwo to można oszacować, losując próby bootstrap z \mathbf{X} i sprawdzając w jakim odsetku losowań średnia wykracza poza przedział (9.23-0.77,9.23+0.77)\;.

Odmiany metody

Istnieje wiele odmian bootstrapu. W jednej z nich próby bootstrap nie są losowane bezpośrednio z próby \mathbf{X}, lecz z rozkładu podobnego do rozkładu \mathbf{X}, lecz z wygładzoną dystrybuantą.

Istnieją też bardziej skomplikowane procedury bootstrapu dla próbkowania bez zwracania, problemów obejmujących dwie próby, regresji, szeregów czasowych, próbkowania hierarchicznego i innych problemów statystycznych.

Odmiana bootstrapu, zwana bagging jest stosowana przy konstruowaniu modeli klasyfikacyjnych i regresyjnych, ograniczając zjawisko przeuczenia (Breiman 1984).

Bibliografia

Linki zewnętrzne