Przedział ufności

Przedział ufności
Polecane artykuły


Przedział ufności to przedział, który z zadanym z góry prawdopodobieństwem \(1- \alpha\), zwanym współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru. Przedział ten jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez polskiego matematyka Jerzego Spławę-Neymana. == Niech cecha X ma rozkład w populacji z nieznanym parametrem \(\theta\). Z populacji wybieramy próbę losową \(\left (X_{1}, X_{2},..., X_{n}\right)\). Przedziałem ufności\( \left (\theta - \theta_{1}, \theta + \theta_{2} \right)\) o współczynniku ufności \(1- \alpha \) nazywamy taki przedział, który spełnia warunek\[P \left (\theta_{1}< \theta< \theta_{2}\right) = 1- \alpha\]

gdzie \( \theta_{1} i \theta_{2}\) są funkcjami wyznaczonymi na podstawie próby losowej.

Współczynnik ufności \( 1 - \alpha\) interpretujemy w sposób następujący: jest to prawdopodobieństwo, że rzeczywista wartość parametru \(\theta\) w populacji znajduje się w wyznaczonym przez nas przedziale ufności tworzonym dzięki wielokrotnym pobieraniu prób n-elementowych prostych. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość \( 1- \alpha\), tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości współczynnika bliskie 1 (0,9; 0,95; 0,99).

Istnieją przedziały ufności dwustronne oraz jednostronne (ograniczone tylko jednostronnie).

Przykłady przedziałów ufności

Największa dokładność estymacji parametru następuje wtedy, kiedy przedział ufności jest możliwie najkrótszy. Aby taki był należy wykorzystać wszystkie dostępne informacje o rozkładzie cechy w populacji. Interesujące są przede wszystkim odchylenie standardowe (\(\sigma\)) oraz liczebność próby.

Przedział ufności dla wartości średniej

Znane odchylenie standardowe

Zakładamy, że cecha ma w populacji rozkład normalny N (\(\mu\),\(\sigma\)), przy czym odchylenie standardowe \(\sigma\) jest znane. Przy estymacji przedziałowej tego parametru opieramy się na jego estymatorze tj. średniej z próby. Ma ona postać\[ \bar{X} = \frac{1}{n} \sum_{k=1}^n X_{i}\]

Przedział ufności dla średniej µ populacji generalnej ma postać\[P \left (\bar{X} - \mathit{u}_{\alpha} \frac{\sigma}{\sqrt{\mathit{n}}} < \mu < \bar{X} + \mathit{u}_{\alpha} \frac{\sigma}{\sqrt{\mathit{n}}} \right) = 1 - \alpha\]

gdzie:

  • \(\bar{X}\) - średnia z próby losowej
  • \(\sigma\) - odchylenie standardowe populacji
  • n - liczebność próby losowej
  • \(u_{\alpha}\) - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa \( 1 - \alpha\) tak, aby\[P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha\]

Nieznane odchylenie standardowe

W praktyce wartość odchylenia standardowego (\(\sigma\)) jest nieznana. Wynika z tego, że rozkład estymatora \(\bar{X}\) nie może być wyznaczony. Dlatego też, przy nieznanym odchyleniu standardowym korzysta się ze statystyki T wykorzystującej odchylenie standardowe z próby (S). Statystyka ta ma rozkład t-Studenta z \(n - 1\) stopniami swobody. Przedział ufności dla średniej \(\mu\) populacji generalnej ma postać\[P \left (\bar{X} - \mathit{t}_{\alpha} \frac{\mathit{S}}{\sqrt{\mathit{n} - 1}} < \mu < \bar{X} + \mathit{t}_{\alpha} \frac{\mathit{S}}{\sqrt{\mathit{n} - 1}} \right) = 1 - \alpha\]

gdzie:

  • \(\bar{X}\) - średnia z próby losowej
  • \(\sigma\) - odchylenie standardowe populacji
  • n - liczebność próby losowej
  • \(t_{\alpha}\) - wartość zmiennej losowej T

Warto także zauważyć, że przedział ufności dla parametru \(\mu\) w populacji o rozkładzie normalnym N (\(\mu\),\(\sigma\)), w przypadku nieznanego parametru \(\sigma\), jest na ogół przy tej samej liczebności próby (n) dłuższy niż przedział ufności dla średniej \(\mu\) w przypadku znanego odchylenia standardowego \(\sigma\). Rozkład t-Studenta charakteryzuje się bowiem nieco większym spłaszczeniem (rozproszeniem) niż rozkład normalny. Ponieważ rozkład t-Studenta zdąża do standaryzowanego rozkładu normalnego przy \( n - 1 \to \infty\), to różnice między obydwoma przedziałami będą - przy dużej liczebności próby - niewielkie, tak że w zastosowaniach praktycznych już przy n - 1> 30 zastępuje się dokładny rozkład t-Studenta rozkładem granicznym, czyli standaryzowanym rozkładem normalnym. (A. Zeliaś 2000, s. 245-246)

Nieznane odchylenie standardowe - duża próba (n>30)

Cecha ma w populacji rozkład normalny N (\(\mu\),\(\sigma\)), przy czym odchylenie standardowe (\(\sigma\)) jest nieznane, a próba jest duża (n>30). Przedział ufności dla parametru \(\mu\) tego rozkładu ma postać\[P \left (\bar{X} - \mathit{u}_{\alpha} \frac{\mathit{S}}{\sqrt{\mathit{n}}} < \mu < \bar{X} + \mathit{u}_{\alpha} \frac{\mathit{S}}{\sqrt{\mathit{n}}} \right) = 1 - \alpha\]

gdzie:

  • \(\bar{X}\) - średnia z próby losowej
  • \(\sigma\) - odchylenie standardowe populacji
  • n - liczebność próby losowej
  • \(u_{\alpha}\) - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa \( 1 - \alpha\) tak, aby\[P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha\]

Przedział ufności dla wariancji

Przedział ufności dla wariancji \(\sigma^2\) w populacji generalnej można wyznaczyć, gdy cecha X charakteryzująca zbiorowość ma rozkład normalny N (\(\mu\),\(\sigma\)). Parametry \(\mu\),\(\sigma\) są nieznane. Estymatorem wariancji jest wariancja z próby - \(S^2\). Ma ona postać\[ S = \sqrt{\frac{1}{n}\sum_{k=1}^n (X_{i}-\bar{X})^2}\]

Przedział ufności może być zbudowany na podstawie rozkładu statystyki chi-kwadrat o n - 1 stopniach swobody\[ \chi^2 = \frac{nS^2} {\sigma^2}\]

Przedział ufności dla parametru \(\sigma^2\) tego rozkładu ma postać\[P \left (\frac{nS^2}{ \chi^2_{1 - \frac{\alpha}{2}, n-1 }} < \sigma^2 < \frac{nS^2}{ \chi^2_{\frac{\alpha}{2}, n-1 }} \right) = 1 - \alpha\]

gdzie:

  • n - liczebność próby losowej
  • S - odchylenie standardowe z próby
  • \( \chi^2_{\frac{\alpha}{2}} \chi^2_ 1 - {\frac{\alpha}{2}}\) - statystyki spełniające odpowiednio równości\[P \left (\chi^2 \ge \chi^2_{\frac{\alpha}{2},\mathit{n}-1} \right) \le \frac{\alpha}{2}\]

\(P \left (\chi^2 \ge \chi^2_{1-\frac{\alpha}{2},\mathit{n}-1} \right) \le 1 - \frac{\alpha}{2}\)

Na podstawie przedziałów ufności dla wariancji \(\sigma^2\) w populacji można zbudować przedziały dla odchylenia standardowego \(\sigma\) w populacji. Aby tego dokonać należy obliczyć pierwiastki kwadratowe członów podanej we wzorze nierówności, znajdujących się pod znakiem prawdopodobieństwa.

Przedział ufności dla odchylenia standardowego - duża próba (n > 30)

Budując taki przedział ufności wykorzystuje się fakt, że estymator S parametru \(\sigma\) ma asymptotyczny rozkład normalny. Przedział ufności dla parametru \(\sigma\) tego rozkładu ma postać\[P \left (\frac{S}{ 1+ \frac{u_{\alpha}} {\sqrt{2n}} } < \sigma < \frac{S}{ 1- \frac{u_{\alpha}} {\sqrt{2n}} }\right) = 1 - \alpha \]

gdzie:

  • S - odchylenie standardowe z próby
  • n - liczebność próby losowej
  • \(u_{\alpha}\) - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa \( 1 - \alpha\) tak, aby\[P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha\]

Przedział ufności dla wskaźnika struktury

W przypadku analizy cech jakościowych populacji generalnej estymuje się wskaźnik struktury lub - po pomnożeniu przez 100 - procent elementów wyróżnionych w populacji posiadających badaną cechę. Wskaźnik ma postać\[p = \frac{M}{N}\]

gdzie M oznacza liczbę elementów wyróżnionych natomiast N liczebność populacji.

Najlepszym estymatorem wskaźnika struktury w populacji jest wskaźnik struktury z próby określony wzorem\[ \bar{p} = \frac{m}{n}\]

W przypadku gdy n jest duże, a p jest małym ułamkiem (p>0,05) można przyjąć, że estymator ma rozkład asymptotycznie normalny.

Przedział ufności dla parametru p tego rozkładu ma postać\[ P \left (\frac{m}{n} - \mathit{u}_{\alpha} \sqrt{\frac{\frac{m}{n}\left (1-\frac{m}{n}\right)}{n} }< p < \frac{m}{n} + \mathit{u}_{\alpha} \sqrt{\frac{\frac{m}{n}\left (1-\frac{m}{n}\right)}{n} }\right) = 1 - \alpha \]

gdzie:

  • m - liczba elementów wyróżnionych w próbie
  • n - liczebność próby losowej
  • \(u_{\alpha}\) - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa \( 1 - \alpha\) tak, aby:
P\(\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha\)

Przedział ufności dla prawdopodobieństwa

Kiedy spotkamy się z cechami jakościowymi, niemierzalnymi, konieczne jest oszacowanie m.in. frakcji elementów, które mają wyróżnioną cechę w populacji generalnej. Owa frakcja (nazywana również wskaźnikiem struktury) jest w swej istocie prawdopodobieństwem sukcesu. W populacji generalnej, estymatorem prawdopodobieństwa p jest wskaźnik struktury w próbie \( {W} = \frac{m}{n}\), gdzie

  • m - liczba jednostek w próbie, które mają wyróżnioną cechę
  • n - liczebność próby

Estymator ten w dużych próbach ma rozkład asymptotycznie normalny \( N \left (p, \sqrt{\dfrac{p (1-p)}{n}}\right) \). Dokonujemy stardaryzacji estymatora W i otrzymujemy\[ Z = \frac{W-p}{\sqrt{\dfrac{p (1-p)}{n}}} = \frac{\frac{m}{n}-p}{\sqrt{\dfrac{p (1-p)}{n}}} \]

Statystyka Z posiada rozkład asymptotycznie normalny N(0, 1). Dla ustalonego ex ante współczynnika ufności \(1- \alpha\) z tablic dystrybuanty rozkładu normalnego N(1, 0) odczytujemy wartość \(z_\alpha\), spełniającą nierówność\[ P \begin{Bmatrix} -z_\alpha < Z < z_\alpha \end{Bmatrix} = 1- \alpha \]

Możemy więc zapisać\[ P \begin{Bmatrix} -z_\alpha < \frac{\frac{m}{n}-p}{\sqrt{\dfrac{p (1-p)}{n}}} < z_\alpha \end{Bmatrix} = 1- \alpha \]

Co po przekształceniach relacji zapisujemy\[ P \begin{Bmatrix} \frac{m}{n} - z_\alpha \sqrt{\dfrac{p (1-p)}{n}} < p < \frac{m}{n} + z_\alpha \sqrt{\dfrac{p (1-p)}{n}} \end{Bmatrix} = 1- \alpha \]

Z powyższej nierówności wynika, iż granice losowego przedziału dla prawdopodobieństwa p w populacji generalnej są zależne od wartości p, która jest nieznana (A. Sobczyk 2002, s. 169). Dla liczebnie dużych prób założyć jednak można, że \(p \thickapprox \frac{m}{n}\).

Zatem ostateczny przybliżony wzór na przedział ufności dla prawdopodobieństwa p w populacji zapisać można w sposób następujący\[P \begin{Bmatrix} \frac{m}{n} - z_\alpha \sqrt{\dfrac{\frac{m}{n}(1-\frac{m}{n})}{n}} < p < \frac{m}{n} + z_\alpha \sqrt{\dfrac{\frac{m}{n}(1-\frac{m}{n})}{n}} \end{Bmatrix} \thickapprox 1- \alpha \].

Bibliografia

  • Fotowicz P. (2005) Obliczanie niepewności rozszerzonej metodą analityczną opartą na splocie rozkładów wielkości wejściowych, Pomiary Automatyka Robotyka, nr 1
  • Kornacki J. (2006) Statystyka dla studentów kierunków technicznych i przyrodniczych (2006), Wydawnictwo Naukowo - Techniczne, Warszawa
  • Kukuła K., (2007)Elementy statystyki w zadaniach, Wydawnictwo Naukowe PWN, Warszawa
  • Luszniewicz A., Słaby T. (1996) Statystyka stosowana, PWE, Warszawa
  • Sobczyk M. (2002) Statystyka, Wydawnictwo Naukowe PWN, Warszawa
  • Starzyńska W. (2002), Statystyka praktyczna, Wydawnictwo Naukowe PWN, Warszawa
  • Zeliaś A., (2000), Metody statystyczne, PWE, Warszawa
  • Zieliński R. (2009) Przedział ufności dla frakcji, Matematyka Stosowana nr 10, Warszawa

Autor: Anna Dziadosz, Kamil Wójcik