Przedział ufności

Przedział ufności to przedział, który z zadanym z góry prawdopodobieństwem Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle 1- \alpha} , zwanym współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru. Przedział ten jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez polskiego matematyka Jerzego Spławę-Neymana.

TL;DR

Przedział ufności to narzędzie estymacji przedziałowej, które określa przedział, w którym z określonym prawdopodobieństwem znajduje się nieznana wartość szacowanego parametru. W artykule omówiono różne przykłady przedziałów ufności, takie jak dla średniej, wariancji, odchylenia standardowego i wskaźnika struktury. Przedziały ufności mogą być budowane na podstawie różnych rozkładów statystycznych i zależą od rozmiaru próby.

== Niech cecha X ma rozkład w populacji z nieznanym parametrem Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \theta} . Z populacji wybieramy próbę losową Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \left (X_{1}, X_{2},..., X_{n}\right)} . Przedziałem ufnościParser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \left (\theta - \theta_{1}, \theta + \theta_{2} \right)} o współczynniku ufności Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle 1- \alpha } nazywamy taki przedział, który spełnia warunek:

Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle P \left (\theta_{1}< \theta< \theta_{2}\right) = 1- \alpha}

gdzie Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \theta_{1} i \theta_{2}} są funkcjami wyznaczonymi na podstawie próby losowej.

Współczynnik ufności Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle 1 - \alpha} interpretujemy w sposób następujący: jest to prawdopodobieństwo, że rzeczywista wartość parametru Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \theta} w populacji znajduje się w wyznaczonym przez nas przedziale ufności tworzonym dzięki wielokrotnym pobieraniu prób n-elementowych prostych. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle 1- \alpha} , tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości współczynnika bliskie 1 (0,9; 0,95; 0,99).

Istnieją przedziały ufności dwustronne oraz jednostronne (ograniczone tylko jednostronnie).

Przykłady przedziałów ufności

Największa dokładność estymacji parametru następuje wtedy, kiedy przedział ufności jest możliwie najkrótszy. Aby taki był należy wykorzystać wszystkie dostępne informacje o rozkładzie cechy w populacji. Interesujące są przede wszystkim odchylenie standardowe (Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma} ) oraz liczebność próby.

Przedział ufności dla wartości średniej

Znane odchylenie standardowe

Zakładamy, że cecha ma w populacji rozkład normalny N ( $\mu$ , $\sigma$ ), przy czym odchylenie standardowe $\sigma$ jest znane. Przy estymacji przedziałowej tego parametru opieramy się na jego estymatorze tj. średniej z próby. Ma ona postać:

${\bar {X}}={\frac {1}{n}}\sum _{k=1}^{n}X_{i}$

Przedział ufności dla średniej µ populacji generalnej ma postać:

$P\left({\bar {X}}-{\mathit {u}}_{\alpha }{\frac {\sigma }{\sqrt {\mathit {n}}}}<\mu <{\bar {X}}+{\mathit {u}}_{\alpha }{\frac {\sigma }{\sqrt {\mathit {n}}}}\right)=1-\alpha$

gdzie:

${\bar {X}}$ - średnia z próby losowej
$\sigma$ - odchylenie standardowe populacji
n - liczebność próby losowej
$u_{\alpha }$ - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa $1-\alpha$ tak, aby:

$P\left(-u_{\alpha }<U<u_{\alpha }\right)=1-\alpha$

Nieznane odchylenie standardowe

W praktyce wartość odchylenia standardowego ( $\sigma$ ) jest nieznana. Wynika z tego, że rozkład estymatora ${\bar {X}}$ nie może być wyznaczony. Dlatego też, przy nieznanym odchyleniu standardowym korzysta się ze statystyki T wykorzystującej odchylenie standardowe z próby (S). Statystyka ta ma rozkład t-Studenta z $n-1$ stopniami swobody. Przedział ufności dla średniej $\mu$ populacji generalnej ma postać:

$P\left({\bar {X}}-{\mathit {t}}_{\alpha }{\frac {\mathit {S}}{\sqrt {{\mathit {n}}-1}}}<\mu <{\bar {X}}+{\mathit {t}}_{\alpha }{\frac {\mathit {S}}{\sqrt {{\mathit {n}}-1}}}\right)=1-\alpha$

gdzie:

${\bar {X}}$ - średnia z próby losowej
$\sigma$ - odchylenie standardowe populacji
n - liczebność próby losowej
$t_{\alpha }$ - wartość zmiennej losowej T

Warto także zauważyć, że przedział ufności dla parametru $\mu$ w populacji o rozkładzie normalnym N ( $\mu$ ,Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma} ), w przypadku nieznanego parametru Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma} , jest na ogół przy tej samej liczebności próby (n) dłuższy niż przedział ufności dla średniej Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \mu} w przypadku znanego odchylenia standardowego Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma} . Rozkład t-Studenta charakteryzuje się bowiem nieco większym spłaszczeniem (rozproszeniem) niż rozkład normalny. Ponieważ rozkład t-Studenta zdąża do standaryzowanego rozkładu normalnego przy Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle n - 1 \to \infty} , to różnice między obydwoma przedziałami będą - przy dużej liczebności próby - niewielkie, tak że w zastosowaniach praktycznych już przy n - 1> 30 zastępuje się dokładny rozkład t-Studenta rozkładem granicznym, czyli standaryzowanym rozkładem normalnym (A. Zeliaś 2000, s. 245-246)

Nieznane odchylenie standardowe - duża próba (n>30)

Cecha ma w populacji rozkład normalny N ( $\mu$ , $\sigma$ ), przy czym odchylenie standardowe (Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma} ) jest nieznane, a próba jest duża (n>30). Przedział ufności dla parametru Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \mu} tego rozkładu ma postać:

Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle P \left (\bar{X} - \mathit{u}_{\alpha} \frac{\mathit{S}}{\sqrt{\mathit{n}}} < \mu < \bar{X} + \mathit{u}_{\alpha} \frac{\mathit{S}}{\sqrt{\mathit{n}}} \right) = 1 - \alpha}

gdzie:

Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \bar{X}} - średnia z próby losowej
Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma} - odchylenie standardowe populacji
n - liczebność próby losowej
Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle u_{\alpha}} - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle 1 - \alpha} tak, aby:

Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle P\left (-u_{\alpha} < U < u_{\alpha}\right) = 1 - \alpha}

Przedział ufności dla wariancji

Przedział ufności dla wariancji Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma^2} w populacji generalnej można wyznaczyć, gdy cecha X charakteryzująca zbiorowość ma rozkład normalny N (Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \mu} ,Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \sigma} ). Parametry Parser nie mógł rozpoznać (SVG (MathML może zostać włączone przez wtyczkę w przeglądarce): Nieprawidłowa odpowiedź („Math extension cannot connect to Restbase.”) z serwera „https://wikimedia.org/api/rest_v1/”:): {\displaystyle \mu} , $\sigma$ są nieznane. Estymatorem wariancji jest wariancja z próby - $S^{2}$ . Ma ona postać:

$S={\sqrt {{\frac {1}{n}}\sum _{k=1}^{n}(X_{i}-{\bar {X}})^{2}}}$

Przedział ufności może być zbudowany na podstawie rozkładu statystyki chi-kwadrat o n - 1 stopniach swobody:

$\chi ^{2}={\frac {nS^{2}}{\sigma ^{2}}}$

Przedział ufności dla parametru $\sigma ^{2}$ tego rozkładu ma postać:

$P\left({\frac {nS^{2}}{\chi _{1-{\frac {\alpha }{2}},n-1}^{2}}}<\sigma ^{2}<{\frac {nS^{2}}{\chi _{{\frac {\alpha }{2}},n-1}^{2}}}\right)=1-\alpha$

gdzie:

n - liczebność próby losowej
S - odchylenie standardowe z próby
$\chi _{\frac {\alpha }{2}}^{2}\chi _{1}^{2}-{\frac {\alpha }{2}}$ - statystyki spełniające odpowiednio równości:

$P\left(\chi ^{2}\geq \chi _{{\frac {\alpha }{2}},{\mathit {n}}-1}^{2}\right)\leq {\frac {\alpha }{2}}$

$P\left(\chi ^{2}\geq \chi _{1-{\frac {\alpha }{2}},{\mathit {n}}-1}^{2}\right)\leq 1-{\frac {\alpha }{2}}$

Na podstawie przedziałów ufności dla wariancji $\sigma ^{2}$ w populacji można zbudować przedziały dla odchylenia standardowego $\sigma$ w populacji. Aby tego dokonać należy obliczyć pierwiastki kwadratowe członów podanej we wzorze nierówności, znajdujących się pod znakiem prawdopodobieństwa.

Przedział ufności dla odchylenia standardowego - duża próba (n > 30)

Budując taki przedział ufności wykorzystuje się fakt, że estymator S parametru $\sigma$ ma asymptotyczny rozkład normalny. Przedział ufności dla parametru $\sigma$ tego rozkładu ma postać:

$P\left({\frac {S}{1+{\frac {u_{\alpha }}{\sqrt {2n}}}}}<\sigma <{\frac {S}{1-{\frac {u_{\alpha }}{\sqrt {2n}}}}}\right)=1-\alpha$

gdzie:

S - odchylenie standardowe z próby
n - liczebność próby losowej
$u_{\alpha }$ - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa $1-\alpha$ tak, aby:

$P\left(-u_{\alpha }<U<u_{\alpha }\right)=1-\alpha$

Przedział ufności dla wskaźnika struktury

W przypadku analizy cech jakościowych populacji generalnej estymuje się wskaźnik struktury lub - po pomnożeniu przez 100 - procent elementów wyróżnionych w populacji posiadających badaną cechę. Wskaźnik ma postać:

$p={\frac {M}{N}}$

gdzie M oznacza liczbę elementów wyróżnionych natomiast N liczebność populacji.

Najlepszym estymatorem wskaźnika struktury w populacji jest wskaźnik struktury z próby określony wzorem:

${\bar {p}}={\frac {m}{n}}$

W przypadku gdy n jest duże, a p jest małym ułamkiem (p>0,05) można przyjąć, że estymator ma rozkład asymptotycznie normalny.

Przedział ufności dla parametru p tego rozkładu ma postać:

$P\left({\frac {m}{n}}-{\mathit {u}}_{\alpha }{\sqrt {\frac {{\frac {m}{n}}\left(1-{\frac {m}{n}}\right)}{n}}}<p<{\frac {m}{n}}+{\mathit {u}}_{\alpha }{\sqrt {\frac {{\frac {m}{n}}\left(1-{\frac {m}{n}}\right)}{n}}}\right)=1-\alpha$

gdzie:

m - liczba elementów wyróżnionych w próbie
n - liczebność próby losowej
$u_{\alpha }$ - wartość zmiennej U~N (0,1) określona dla prawdopodobieństwa $1-\alpha$ tak, aby:

P

\left(-u_{\alpha }<U<u_{\alpha }\right)=1-\alpha

Przedział ufności dla prawdopodobieństwa

Kiedy spotkamy się z cechami jakościowymi, niemierzalnymi, konieczne jest oszacowanie m.in. frakcji elementów, które mają wyróżnioną cechę w populacji generalnej. Owa frakcja (nazywana również wskaźnikiem struktury) jest w swej istocie prawdopodobieństwem sukcesu. W populacji generalnej, estymatorem prawdopodobieństwa p jest wskaźnik struktury w próbie ${W}={\frac {m}{n}}$ , gdzie

m - liczba jednostek w próbie, które mają wyróżnioną cechę
n - liczebność próby

Estymator ten w dużych próbach ma rozkład asymptotycznie normalny $N\left(p,{\sqrt {\dfrac {p(1-p)}{n}}}\right)$ . Dokonujemy stardaryzacji estymatora W i otrzymujemy:

$Z={\frac {W-p}{\sqrt {\dfrac {p(1-p)}{n}}}}={\frac {{\frac {m}{n}}-p}{\sqrt {\dfrac {p(1-p)}{n}}}}$

Statystyka Z posiada rozkład asymptotycznie normalny N(0, 1). Dla ustalonego ex ante współczynnika ufności $1-\alpha$ z tablic dystrybuanty rozkładu normalnego N(1, 0) odczytujemy wartość $z_{\alpha }$ , spełniającą nierówność:

$P{\begin{Bmatrix}-z_{\alpha }<Z<z_{\alpha }\end{Bmatrix}}=1-\alpha$

Możemy więc zapisać: $P{\begin{Bmatrix}-z_{\alpha }<{\frac {{\frac {m}{n}}-p}{\sqrt {\dfrac {p(1-p)}{n}}}}<z_{\alpha }\end{Bmatrix}}=1-\alpha$

Co po przekształceniach relacji zapisujemy: $P{\begin{Bmatrix}{\frac {m}{n}}-z_{\alpha }{\sqrt {\dfrac {p(1-p)}{n}}}<p<{\frac {m}{n}}+z_{\alpha }{\sqrt {\dfrac {p(1-p)}{n}}}\end{Bmatrix}}=1-\alpha$

Z powyższej nierówności wynika, iż granice losowego przedziału dla prawdopodobieństwa p w populacji generalnej są zależne od wartości p, która jest nieznana (A. Sobczyk 2002, s. 169). Dla liczebnie dużych prób założyć jednak można, że $p\thickapprox {\frac {m}{n}}$ .

Zatem ostateczny przybliżony wzór na przedział ufności dla prawdopodobieństwa p w populacji zapisać można w sposób następujący:

$P{\begin{Bmatrix}{\frac {m}{n}}-z_{\alpha }{\sqrt {\dfrac {{\frac {m}{n}}(1-{\frac {m}{n}})}{n}}}<p<{\frac {m}{n}}+z_{\alpha }{\sqrt {\dfrac {{\frac {m}{n}}(1-{\frac {m}{n}})}{n}}}\end{Bmatrix}}\thickapprox 1-\alpha$ .

Przedział ufności — artykuły polecane
Estymator nieobciążony — Estymator obciążony — Percentyl — Estymator — Estymacja — Test zgodności chi-kwadrat — Średnia — Dominanta — Metody statystyczne

Bibliografia

Fotowicz P. (2005) Obliczanie niepewności rozszerzonej metodą analityczną opartą na splocie rozkładów wielkości wejściowych, Pomiary Automatyka Robotyka, nr 1
Kornacki J. (2006), Statystyka dla studentów kierunków technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne, Warszawa
Kukuła K., (2007)Elementy statystyki w zadaniach, Wydawnictwo Naukowe PWN, Warszawa
Luszniewicz A., Słaby T. (1996) Statystyka stosowana, PWE, Warszawa
Sobczyk M. (2007), Statystyka, Wydawnictwo Naukowe PWN, Warszawa
Starzyńska W. (2006), Statystyka praktyczna, Wydawnictwo Naukowe PWN, Warszawa
Zeliaś A. (2001), Metody statystyczne, Polskie Wydawnictwo Ekonomiczne, Warszawa
Zieliński R. (2009), Przedział ufności dla frakcji, Matematyka Stosowana, nr 10

Autor: Anna Dziadosz, Kamil Wójcik

Anonimowy

Szukaj

Przedział ufności

Przestrzenie nazw

Więcej

Działania na stronie

Spis treści

TL;DR