Przedział ufności: Różnice pomiędzy wersjami
(LinkTitles.) |
m (cleanup bibliografii i rotten links) |
||
(Nie pokazano 16 wersji utworzonych przez 2 użytkowników) | |||
Linia 1: | Linia 1: | ||
'''Przedział ufności''' to przedział, który z zadanym z góry [[Prawdopodobieństwo|prawdopodobieństwem]] <math>1- \alpha</math>, zwanym '''współczynnikiem ufności''', pokrywa nieznaną [[wartość]] szacowanego [[parametr]]u. Przedział ten jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do [[Statystyka|statystyki]] przez polskiego matematyka Jerzego Spławę-Neymana. | |||
==TL;DR== | |||
Przedział ufności to narzędzie estymacji przedziałowej, które określa przedział, w którym z określonym prawdopodobieństwem znajduje się nieznana wartość szacowanego parametru. W artykule omówiono różne przykłady przedziałów ufności, takie jak dla średniej, wariancji, odchylenia standardowego i wskaźnika struktury. Przedziały ufności mogą być budowane na podstawie różnych rozkładów statystycznych i zależą od rozmiaru próby. | |||
== | |||
== | |||
Niech cecha X ma rozkład w [[Populacja|populacji]] z nieznanym parametrem <math>\theta</math>. Z populacji wybieramy [[Próba|próbę]] losową <math>\left (X_{1}, X_{2},..., X_{n}\right)</math>. '''Przedziałem ufności'''<math> \left (\theta - \theta_{1}, \theta + \theta_{2} \right)</math> o '''współczynniku ufności''' <math>1- \alpha </math> nazywamy taki przedział, który spełnia warunek: | Niech cecha X ma rozkład w [[Populacja|populacji]] z nieznanym parametrem <math>\theta</math>. Z populacji wybieramy [[Próba|próbę]] losową <math>\left (X_{1}, X_{2},..., X_{n}\right)</math>. '''Przedziałem ufności'''<math> \left (\theta - \theta_{1}, \theta + \theta_{2} \right)</math> o '''współczynniku ufności''' <math>1- \alpha </math> nazywamy taki przedział, który spełnia warunek: | ||
Linia 25: | Linia 12: | ||
'''Współczynnik ufności''' <math> 1 - \alpha</math> interpretujemy w sposób następujący: jest to [[prawdopodobieństwo]], że rzeczywista wartość parametru <math>\theta</math> w populacji znajduje się w wyznaczonym przez nas przedziale ufności tworzonym dzięki wielokrotnym pobieraniu prób n-elementowych prostych. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza [[dokładność]] estymacji parametru. Im mniejsza wartość <math> 1- \alpha</math>, tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a [[Ryzyko|ryzykiem]] błędu. W praktyce przyjmuje się zazwyczaj wartości współczynnika bliskie 1 (0,9; 0,95; 0,99). | '''Współczynnik ufności''' <math> 1 - \alpha</math> interpretujemy w sposób następujący: jest to [[prawdopodobieństwo]], że rzeczywista wartość parametru <math>\theta</math> w populacji znajduje się w wyznaczonym przez nas przedziale ufności tworzonym dzięki wielokrotnym pobieraniu prób n-elementowych prostych. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza [[dokładność]] estymacji parametru. Im mniejsza wartość <math> 1- \alpha</math>, tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a [[Ryzyko|ryzykiem]] błędu. W praktyce przyjmuje się zazwyczaj wartości współczynnika bliskie 1 (0,9; 0,95; 0,99). | ||
Istnieją przedziały ufności '''dwustronne''' oraz '''jednostronne''' (ograniczone tylko jednostronnie). | Istnieją przedziały ufności '''dwustronne''' oraz '''jednostronne''' (ograniczone tylko jednostronnie). | ||
<google>n</google> | |||
==Przykłady przedziałów ufności== | ==Przykłady przedziałów ufności== | ||
Największa dokładność estymacji parametru następuje wtedy, kiedy przedział ufności jest możliwie najkrótszy. Aby taki był należy wykorzystać wszystkie dostępne [[informacje]] o rozkładzie cechy w populacji. Interesujące są przede wszystkim [[odchylenie standardowe]] (<math>\sigma</math>) oraz liczebność [[Próba|próby]]. | Największa dokładność estymacji parametru następuje wtedy, kiedy przedział ufności jest możliwie najkrótszy. Aby taki był należy wykorzystać wszystkie dostępne [[informacje]] o rozkładzie cechy w populacji. Interesujące są przede wszystkim [[odchylenie standardowe]] (<math>\sigma</math>) oraz liczebność [[Próba|próby]]. | ||
===Przedział ufności dla wartości średniej=== | ===Przedział ufności dla wartości średniej=== | ||
====Znane odchylenie standardowe==== | |||
====Znane odchylenie standardowe==== | |||
Zakładamy, że cecha ma w populacji [[rozkład normalny]] N (<math>\mu</math>,<math>\sigma</math>), przy czym [[odchylenie standardowe]] <math>\sigma</math> jest znane. Przy estymacji przedziałowej tego parametru opieramy się na jego [[estymator]]ze tj. średniej z próby. Ma ona postać: | Zakładamy, że cecha ma w populacji [[rozkład normalny]] N (<math>\mu</math>,<math>\sigma</math>), przy czym [[odchylenie standardowe]] <math>\sigma</math> jest znane. Przy estymacji przedziałowej tego parametru opieramy się na jego [[estymator]]ze tj. średniej z próby. Ma ona postać: | ||
Linia 46: | Linia 34: | ||
* <math>\sigma</math> - odchylenie standardowe populacji | * <math>\sigma</math> - odchylenie standardowe populacji | ||
* n - liczebność próby losowej | * n - liczebność próby losowej | ||
* <math>u_{\alpha}</math> - wartość [[Zmienna|zmiennej]] U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | * <math>u_{\alpha}</math> - wartość [[Zmienna|zmiennej]] U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | ||
<math>P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | <math>P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | ||
====Nieznane odchylenie standardowe==== | ====Nieznane odchylenie standardowe==== | ||
W praktyce wartość odchylenia standardowego (<math>\sigma</math>) jest nieznana. Wynika z tego, że rozkład estymatora <math>\bar{X}</math> nie może być wyznaczony. Dlatego też, przy nieznanym odchyleniu standardowym korzysta się ze statystyki T wykorzystującej odchylenie standardowe z próby (S). [[Statystyka]] ta ma [[rozkład t-Studenta]] z <math>n - 1</math> stopniami swobody. | W praktyce wartość odchylenia standardowego (<math>\sigma</math>) jest nieznana. Wynika z tego, że rozkład estymatora <math>\bar{X}</math> nie może być wyznaczony. Dlatego też, przy nieznanym odchyleniu standardowym korzysta się ze statystyki T wykorzystującej odchylenie standardowe z próby (S). [[Statystyka]] ta ma [[rozkład t-Studenta]] z <math>n - 1</math> stopniami swobody. | ||
Przedział ufności dla średniej <math>\mu</math> populacji generalnej ma postać: | Przedział ufności dla średniej <math>\mu</math> populacji generalnej ma postać: | ||
Linia 61: | Linia 49: | ||
* <math>t_{\alpha}</math> - wartość [[Zmienna losowa|zmiennej losowej]] T | * <math>t_{\alpha}</math> - wartość [[Zmienna losowa|zmiennej losowej]] T | ||
Warto także zauważyć, że przedział ufności dla parametru <math>\mu</math> w populacji o rozkładzie normalnym N (<math>\mu</math>,<math>\sigma</math>), w przypadku nieznanego parametru <math>\sigma</math>, jest na ogół przy tej samej liczebności próby (n) dłuższy niż przedział ufności dla średniej <math>\mu</math> w przypadku znanego odchylenia standardowego <math>\sigma</math>. Rozkład t-Studenta charakteryzuje się bowiem nieco większym spłaszczeniem (rozproszeniem) niż rozkład normalny. Ponieważ rozkład t-Studenta zdąża do standaryzowanego rozkładu normalnego przy <math> n - 1 \to \infty</math>, to różnice między obydwoma przedziałami będą - przy dużej liczebności próby - niewielkie, tak że w zastosowaniach praktycznych już przy n - 1> 30 zastępuje się dokładny rozkład t-Studenta rozkładem granicznym, czyli standaryzowanym rozkładem normalnym | Warto także zauważyć, że przedział ufności dla parametru <math>\mu</math> w populacji o rozkładzie normalnym N (<math>\mu</math>,<math>\sigma</math>), w przypadku nieznanego parametru <math>\sigma</math>, jest na ogół przy tej samej liczebności próby (n) dłuższy niż przedział ufności dla średniej <math>\mu</math> w przypadku znanego odchylenia standardowego <math>\sigma</math>. Rozkład t-Studenta charakteryzuje się bowiem nieco większym spłaszczeniem (rozproszeniem) niż rozkład normalny. Ponieważ rozkład t-Studenta zdąża do standaryzowanego rozkładu normalnego przy <math> n - 1 \to \infty</math>, to różnice między obydwoma przedziałami będą - przy dużej liczebności próby - niewielkie, tak że w zastosowaniach praktycznych już przy n - 1> 30 zastępuje się dokładny rozkład t-Studenta rozkładem granicznym, czyli standaryzowanym rozkładem normalnym (A. Zeliaś 2000, s. 245-246) | ||
====Nieznane odchylenie standardowe - duża próba (n>30)==== | ====Nieznane odchylenie standardowe - duża próba (n>30)==== | ||
Cecha ma w populacji rozkład normalny N (<math>\mu</math>,<math>\sigma</math>), przy czym odchylenie standardowe (<math>\sigma</math>) jest nieznane, a [[próba]] jest duża (n>30). | Cecha ma w populacji rozkład normalny N (<math>\mu</math>,<math>\sigma</math>), przy czym odchylenie standardowe (<math>\sigma</math>) jest nieznane, a [[próba]] jest duża (n>30). | ||
Przedział ufności dla parametru <math>\mu</math> tego rozkładu ma postać: | Przedział ufności dla parametru <math>\mu</math> tego rozkładu ma postać: | ||
Linia 73: | Linia 61: | ||
* <math>\sigma</math> - odchylenie standardowe populacji | * <math>\sigma</math> - odchylenie standardowe populacji | ||
* n - liczebność próby losowej | * n - liczebność próby losowej | ||
* <math>u_{\alpha}</math> - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | * <math>u_{\alpha}</math> - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | ||
<math>P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | <math>P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | ||
Linia 98: | Linia 86: | ||
<math>P \left (\chi^2 \ge \chi^2_{1-\frac{\alpha}{2},\mathit{n}-1} \right) \le 1 - \frac{\alpha}{2}</math> | <math>P \left (\chi^2 \ge \chi^2_{1-\frac{\alpha}{2},\mathit{n}-1} \right) \le 1 - \frac{\alpha}{2}</math> | ||
Na podstawie przedziałów ufności dla wariancji <math>\sigma^2</math> w populacji można zbudować przedziały dla odchylenia standardowego <math>\sigma</math> w populacji. Aby tego dokonać należy obliczyć pierwiastki kwadratowe członów podanej we wzorze nierówności, znajdujących się pod znakiem prawdopodobieństwa. | Na podstawie przedziałów ufności dla wariancji <math>\sigma^2</math> w populacji można zbudować przedziały dla odchylenia standardowego <math>\sigma</math> w populacji. Aby tego dokonać należy obliczyć pierwiastki kwadratowe członów podanej we wzorze nierówności, znajdujących się pod znakiem prawdopodobieństwa. | ||
====Przedział ufności dla odchylenia standardowego - duża próba (n > 30)==== | ====Przedział ufności dla odchylenia standardowego - duża próba (n > 30)==== | ||
Budując taki przedział ufności wykorzystuje się fakt, że estymator S parametru <math>\sigma</math> ma asymptotyczny rozkład normalny. | Budując taki przedział ufności wykorzystuje się fakt, że estymator S parametru <math>\sigma</math> ma asymptotyczny rozkład normalny. | ||
Przedział ufności dla parametru <math>\sigma</math> tego rozkładu ma postać: | Przedział ufności dla parametru <math>\sigma</math> tego rozkładu ma postać: | ||
Linia 109: | Linia 97: | ||
* S - odchylenie standardowe z próby | * S - odchylenie standardowe z próby | ||
* n - liczebność próby losowej | * n - liczebność próby losowej | ||
* <math>u_{\alpha}</math> - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | * <math>u_{\alpha}</math> - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | ||
<math>P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | <math>P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | ||
Linia 117: | Linia 105: | ||
<math>p = \frac{M}{N}</math> | <math>p = \frac{M}{N}</math> | ||
gdzie M oznacza liczbę elementów wyróżnionych natomiast N liczebność populacji. | gdzie M oznacza liczbę elementów wyróżnionych natomiast N liczebność populacji. | ||
Najlepszym estymatorem wskaźnika struktury w populacji jest wskaźnik struktury z próby określony wzorem: | Najlepszym estymatorem wskaźnika struktury w populacji jest wskaźnik struktury z próby określony wzorem: | ||
Linia 123: | Linia 111: | ||
<math> \bar{p} = \frac{m}{n}</math> | <math> \bar{p} = \frac{m}{n}</math> | ||
W przypadku gdy n jest duże, a p jest małym ułamkiem (p>0,05) można przyjąć, że estymator ma rozkład asymptotycznie normalny. | W przypadku gdy n jest duże, a p jest małym ułamkiem (p>0,05) można przyjąć, że estymator ma rozkład asymptotycznie normalny. | ||
Przedział ufności dla parametru p tego rozkładu ma postać: | Przedział ufności dla parametru p tego rozkładu ma postać: | ||
Linia 132: | Linia 120: | ||
* m - liczba elementów wyróżnionych w próbie | * m - liczba elementów wyróżnionych w próbie | ||
* n - liczebność próby losowej | * n - liczebność próby losowej | ||
* <math>u_{\alpha}</math> - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | * <math>u_{\alpha}</math> - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa <math> 1 - \alpha</math> tak, aby: | ||
: P<math>\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | : P<math>\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha</math> | ||
===Przedział ufności dla prawdopodobieństwa=== | ===Przedział ufności dla prawdopodobieństwa=== | ||
Kiedy spotkamy się z cechami jakościowymi, niemierzalnymi, konieczne jest oszacowanie m.in. '''frakcji''' elementów, które mają wyróżnioną cechę w populacji generalnej. Owa frakcja (nazywana również '''wskaźnikiem struktury''') jest w swej istocie prawdopodobieństwem sukcesu. W populacji generalnej, estymatorem prawdopodobieństwa ''p'' jest wskaźnik struktury w próbie <math> {W} = \frac{m}{n}</math>, gdzie | Kiedy spotkamy się z cechami jakościowymi, niemierzalnymi, konieczne jest oszacowanie m.in. '''frakcji''' elementów, które mają wyróżnioną cechę w populacji generalnej. Owa frakcja (nazywana również '''wskaźnikiem struktury''') jest w swej istocie prawdopodobieństwem sukcesu. W populacji generalnej, estymatorem prawdopodobieństwa ''p'' jest wskaźnik struktury w próbie <math> {W} = \frac{m}{n}</math>, gdzie | ||
* m - liczba jednostek w próbie, które mają wyróżnioną cechę | * m - liczba jednostek w próbie, które mają wyróżnioną cechę | ||
* n - liczebność próby | * n - liczebność próby | ||
Estymator ten w dużych próbach ma rozkład asymptotycznie normalny <math> N \left (p, \sqrt{\dfrac{p (1-p)}{n}}\right) </math>. | Estymator ten w dużych próbach ma rozkład asymptotycznie normalny <math> N \left (p, \sqrt{\dfrac{p (1-p)}{n}}\right) </math>. | ||
Dokonujemy stardaryzacji estymatora W i otrzymujemy: | Dokonujemy stardaryzacji estymatora W i otrzymujemy: | ||
<math> Z = \frac{W-p}{\sqrt{\dfrac{p (1-p)}{n}}} = \frac{\frac{m}{n}-p}{\sqrt{\dfrac{p (1-p)}{n}}} </math> | <math> Z = \frac{W-p}{\sqrt{\dfrac{p (1-p)}{n}}} = \frac{\frac{m}{n}-p}{\sqrt{\dfrac{p (1-p)}{n}}} </math> | ||
Statystyka Z posiada rozkład asymptotycznie normalny ''N''(0, 1). Dla ustalonego ''ex ante'' współczynnika ufności <math>1- \alpha</math> z tablic dystrybuanty rozkładu normalnego ''N''(1, 0) odczytujemy wartość <math>z_\alpha</math>, spełniającą nierówność: | Statystyka Z posiada rozkład asymptotycznie normalny ''N''(0, 1). Dla ustalonego ''ex ante'' współczynnika ufności <math>1- \alpha</math> z tablic dystrybuanty rozkładu normalnego ''N''(1, 0) odczytujemy wartość <math>z_\alpha</math>, spełniającą nierówność: | ||
<math> P \begin{Bmatrix} -z_\alpha < Z < z_\alpha \end{Bmatrix} = 1- \alpha </math> | <math> P \begin{Bmatrix} -z_\alpha < Z < z_\alpha \end{Bmatrix} = 1- \alpha </math> | ||
Linia 153: | Linia 140: | ||
Co po przekształceniach relacji zapisujemy: | Co po przekształceniach relacji zapisujemy: | ||
<math> P \begin{Bmatrix} \frac{m}{n} - z_\alpha \sqrt{\dfrac{p (1-p)}{n}} < p < \frac{m}{n} + z_\alpha \sqrt{\dfrac{p (1-p)}{n}} \end{Bmatrix} = 1- \alpha </math> | <math> P \begin{Bmatrix} \frac{m}{n} - z_\alpha \sqrt{\dfrac{p (1-p)}{n}} < p < \frac{m}{n} + z_\alpha \sqrt{\dfrac{p (1-p)}{n}} \end{Bmatrix} = 1- \alpha </math> | ||
Z powyższej nierówności wynika, iż granice losowego przedziału dla prawdopodobieństwa ''p'' w populacji generalnej są zależne od wartości ''p'', która jest nieznana (A. Sobczyk 2002, s. 169). Dla liczebnie dużych prób założyć jednak można, że <math>p \thickapprox \frac{m}{n}</math>. | Z powyższej nierówności wynika, iż granice losowego przedziału dla prawdopodobieństwa ''p'' w populacji generalnej są zależne od wartości ''p'', która jest nieznana (A. Sobczyk 2002, s. 169). Dla liczebnie dużych prób założyć jednak można, że <math>p \thickapprox \frac{m}{n}</math>. | ||
Zatem ostateczny przybliżony wzór na przedział ufności dla prawdopodobieństwa ''p'' w populacji zapisać można w sposób następujący: | Zatem ostateczny przybliżony wzór na przedział ufności dla prawdopodobieństwa ''p'' w populacji zapisać można w sposób następujący: | ||
<math>P \begin{Bmatrix} \frac{m}{n} - z_\alpha \sqrt{\dfrac{\frac{m}{n}(1-\frac{m}{n})}{n}} < p < \frac{m}{n} + z_\alpha \sqrt{\dfrac{\frac{m}{n}(1-\frac{m}{n})}{n}} \end{Bmatrix} \thickapprox 1- \alpha </math>. | <math>P \begin{Bmatrix} \frac{m}{n} - z_\alpha \sqrt{\dfrac{\frac{m}{n}(1-\frac{m}{n})}{n}} < p < \frac{m}{n} + z_\alpha \sqrt{\dfrac{\frac{m}{n}(1-\frac{m}{n})}{n}} \end{Bmatrix} \thickapprox 1- \alpha </math>. | ||
{{infobox5|list1={{i5link|a=[[Estymator nieobciążony]]}} — {{i5link|a=[[Estymator obciążony]]}} — {{i5link|a=[[Percentyl]]}} — {{i5link|a=[[Estymator]]}} — {{i5link|a=[[Estymacja]]}} — {{i5link|a=[[Test zgodności chi-kwadrat]]}} — {{i5link|a=[[Średnia]]}} — {{i5link|a=[[Dominanta]]}} — {{i5link|a=[[Metody statystyczne]]}} }} | |||
==Bibliografia== | ==Bibliografia== | ||
* Fotowicz P. (2005) [ | <noautolinks> | ||
* Kornacki J. (2006) ''Statystyka dla studentów kierunków technicznych i przyrodniczych'' | * Fotowicz P. (2005), ''[https://www.par.pl/2005/files/01-05_artykul1p.pdf Obliczanie niepewności rozszerzonej metodą analityczną opartą na splocie rozkładów wielkości wejściowych]'', Pomiary Automatyka Robotyka, nr 1 | ||
* Kukuła K. | * Kornacki J. (2006), ''Statystyka dla studentów kierunków technicznych i przyrodniczych'', Wydawnictwo Naukowo-Techniczne, Warszawa | ||
* Luszniewicz A., Słaby T. (1996) ''Statystyka stosowana'', PWE, Warszawa | * Kukuła K. (2007), ''Elementy statystyki w zadaniach'', Wydawnictwo Naukowe PWN, Warszawa | ||
* Sobczyk M. ( | * Luszniewicz A., Słaby T. (1996), ''Statystyka stosowana'', PWE, Warszawa | ||
* Starzyńska W. ( | * Sobczyk M. (2007), ''Statystyka'', Wydawnictwo Naukowe PWN, Warszawa | ||
* Zeliaś A. | * Starzyńska W. (2006), ''Statystyka praktyczna'', Wydawnictwo Naukowe PWN, Warszawa | ||
* Zieliński R. (2009) | * Zeliaś A. (2001), ''Metody statystyczne'', Polskie Wydawnictwo Ekonomiczne, Warszawa | ||
* Zieliński R. (2009), ''Przedział ufności dla frakcji'', Matematyka Stosowana, nr 10 | |||
</noautolinks> | |||
{{a|Anna Dziadosz, Kamil Wójcik}} | {{a|Anna Dziadosz, Kamil Wójcik}} | ||
[[Kategoria: | [[Kategoria:Miary statystyczne]] | ||
{{#metamaster:description|Przedział ufności - narzędzie estymacji przedziałowej w statystyce. Dowiedz się więcej o tym pojęciu i jego znaczeniu.}} |
Aktualna wersja na dzień 23:11, 21 gru 2023
Przedział ufności to przedział, który z zadanym z góry prawdopodobieństwem , zwanym współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru. Przedział ten jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez polskiego matematyka Jerzego Spławę-Neymana.
TL;DR
Przedział ufności to narzędzie estymacji przedziałowej, które określa przedział, w którym z określonym prawdopodobieństwem znajduje się nieznana wartość szacowanego parametru. W artykule omówiono różne przykłady przedziałów ufności, takie jak dla średniej, wariancji, odchylenia standardowego i wskaźnika struktury. Przedziały ufności mogą być budowane na podstawie różnych rozkładów statystycznych i zależą od rozmiaru próby.
== Niech cecha X ma rozkład w populacji z nieznanym parametrem . Z populacji wybieramy próbę losową . Przedziałem ufności o współczynniku ufności nazywamy taki przedział, który spełnia warunek:
gdzie są funkcjami wyznaczonymi na podstawie próby losowej.
Współczynnik ufności interpretujemy w sposób następujący: jest to prawdopodobieństwo, że rzeczywista wartość parametru w populacji znajduje się w wyznaczonym przez nas przedziale ufności tworzonym dzięki wielokrotnym pobieraniu prób n-elementowych prostych. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość , tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości współczynnika bliskie 1 (0,9; 0,95; 0,99).
Istnieją przedziały ufności dwustronne oraz jednostronne (ograniczone tylko jednostronnie).
Przykłady przedziałów ufności
Największa dokładność estymacji parametru następuje wtedy, kiedy przedział ufności jest możliwie najkrótszy. Aby taki był należy wykorzystać wszystkie dostępne informacje o rozkładzie cechy w populacji. Interesujące są przede wszystkim odchylenie standardowe () oraz liczebność próby.
Przedział ufności dla wartości średniej
Znane odchylenie standardowe
Zakładamy, że cecha ma w populacji rozkład normalny N (,), przy czym odchylenie standardowe jest znane. Przy estymacji przedziałowej tego parametru opieramy się na jego estymatorze tj. średniej z próby. Ma ona postać:
Przedział ufności dla średniej µ populacji generalnej ma postać:
gdzie:
- - średnia z próby losowej
- - odchylenie standardowe populacji
- n - liczebność próby losowej
- - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa tak, aby:
Nieznane odchylenie standardowe
W praktyce wartość odchylenia standardowego () jest nieznana. Wynika z tego, że rozkład estymatora nie może być wyznaczony. Dlatego też, przy nieznanym odchyleniu standardowym korzysta się ze statystyki T wykorzystującej odchylenie standardowe z próby (S). Statystyka ta ma rozkład t-Studenta z stopniami swobody. Przedział ufności dla średniej populacji generalnej ma postać:
gdzie:
- - średnia z próby losowej
- - odchylenie standardowe populacji
- n - liczebność próby losowej
- - wartość zmiennej losowej T
Warto także zauważyć, że przedział ufności dla parametru w populacji o rozkładzie normalnym N (,), w przypadku nieznanego parametru , jest na ogół przy tej samej liczebności próby (n) dłuższy niż przedział ufności dla średniej w przypadku znanego odchylenia standardowego . Rozkład t-Studenta charakteryzuje się bowiem nieco większym spłaszczeniem (rozproszeniem) niż rozkład normalny. Ponieważ rozkład t-Studenta zdąża do standaryzowanego rozkładu normalnego przy , to różnice między obydwoma przedziałami będą - przy dużej liczebności próby - niewielkie, tak że w zastosowaniach praktycznych już przy n - 1> 30 zastępuje się dokładny rozkład t-Studenta rozkładem granicznym, czyli standaryzowanym rozkładem normalnym (A. Zeliaś 2000, s. 245-246)
Nieznane odchylenie standardowe - duża próba (n>30)
Cecha ma w populacji rozkład normalny N (,), przy czym odchylenie standardowe () jest nieznane, a próba jest duża (n>30). Przedział ufności dla parametru tego rozkładu ma postać:
gdzie:
- - średnia z próby losowej
- - odchylenie standardowe populacji
- n - liczebność próby losowej
- - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa tak, aby:
Przedział ufności dla wariancji
Przedział ufności dla wariancji w populacji generalnej można wyznaczyć, gdy cecha X charakteryzująca zbiorowość ma rozkład normalny N (,). Parametry , są nieznane. Estymatorem wariancji jest wariancja z próby - . Ma ona postać:
Przedział ufności może być zbudowany na podstawie rozkładu statystyki chi-kwadrat o n - 1 stopniach swobody:
Przedział ufności dla parametru tego rozkładu ma postać:
gdzie:
- n - liczebność próby losowej
- S - odchylenie standardowe z próby
- - statystyki spełniające odpowiednio równości:
Na podstawie przedziałów ufności dla wariancji w populacji można zbudować przedziały dla odchylenia standardowego w populacji. Aby tego dokonać należy obliczyć pierwiastki kwadratowe członów podanej we wzorze nierówności, znajdujących się pod znakiem prawdopodobieństwa.
Przedział ufności dla odchylenia standardowego - duża próba (n > 30)
Budując taki przedział ufności wykorzystuje się fakt, że estymator S parametru ma asymptotyczny rozkład normalny. Przedział ufności dla parametru tego rozkładu ma postać:
gdzie:
- S - odchylenie standardowe z próby
- n - liczebność próby losowej
- - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa tak, aby:
Przedział ufności dla wskaźnika struktury
W przypadku analizy cech jakościowych populacji generalnej estymuje się wskaźnik struktury lub - po pomnożeniu przez 100 - procent elementów wyróżnionych w populacji posiadających badaną cechę. Wskaźnik ma postać:
gdzie M oznacza liczbę elementów wyróżnionych natomiast N liczebność populacji.
Najlepszym estymatorem wskaźnika struktury w populacji jest wskaźnik struktury z próby określony wzorem:
W przypadku gdy n jest duże, a p jest małym ułamkiem (p>0,05) można przyjąć, że estymator ma rozkład asymptotycznie normalny.
Przedział ufności dla parametru p tego rozkładu ma postać:
gdzie:
- m - liczba elementów wyróżnionych w próbie
- n - liczebność próby losowej
- - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa tak, aby:
- P
Przedział ufności dla prawdopodobieństwa
Kiedy spotkamy się z cechami jakościowymi, niemierzalnymi, konieczne jest oszacowanie m.in. frakcji elementów, które mają wyróżnioną cechę w populacji generalnej. Owa frakcja (nazywana również wskaźnikiem struktury) jest w swej istocie prawdopodobieństwem sukcesu. W populacji generalnej, estymatorem prawdopodobieństwa p jest wskaźnik struktury w próbie , gdzie
- m - liczba jednostek w próbie, które mają wyróżnioną cechę
- n - liczebność próby
Estymator ten w dużych próbach ma rozkład asymptotycznie normalny . Dokonujemy stardaryzacji estymatora W i otrzymujemy:
Statystyka Z posiada rozkład asymptotycznie normalny N(0, 1). Dla ustalonego ex ante współczynnika ufności z tablic dystrybuanty rozkładu normalnego N(1, 0) odczytujemy wartość , spełniającą nierówność:
Możemy więc zapisać:
Co po przekształceniach relacji zapisujemy:
Z powyższej nierówności wynika, iż granice losowego przedziału dla prawdopodobieństwa p w populacji generalnej są zależne od wartości p, która jest nieznana (A. Sobczyk 2002, s. 169). Dla liczebnie dużych prób założyć jednak można, że .
Zatem ostateczny przybliżony wzór na przedział ufności dla prawdopodobieństwa p w populacji zapisać można w sposób następujący:
.
Przedział ufności — artykuły polecane |
Estymator nieobciążony — Estymator obciążony — Percentyl — Estymator — Estymacja — Test zgodności chi-kwadrat — Średnia — Dominanta — Metody statystyczne |
Bibliografia
- Fotowicz P. (2005), Obliczanie niepewności rozszerzonej metodą analityczną opartą na splocie rozkładów wielkości wejściowych, Pomiary Automatyka Robotyka, nr 1
- Kornacki J. (2006), Statystyka dla studentów kierunków technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne, Warszawa
- Kukuła K. (2007), Elementy statystyki w zadaniach, Wydawnictwo Naukowe PWN, Warszawa
- Luszniewicz A., Słaby T. (1996), Statystyka stosowana, PWE, Warszawa
- Sobczyk M. (2007), Statystyka, Wydawnictwo Naukowe PWN, Warszawa
- Starzyńska W. (2006), Statystyka praktyczna, Wydawnictwo Naukowe PWN, Warszawa
- Zeliaś A. (2001), Metody statystyczne, Polskie Wydawnictwo Ekonomiczne, Warszawa
- Zieliński R. (2009), Przedział ufności dla frakcji, Matematyka Stosowana, nr 10
Autor: Anna Dziadosz, Kamil Wójcik