Test Shapiro-Wilka: Różnice pomiędzy wersjami

Aktualna wersja na dzień 23:06, 19 gru 2023

Test Shapiro-Wilka jest jednym z testów normalności rozkładu. Test ten jest nieparametryczny, czyli nie jest oparty na żadnych wstępnych założeniach co do parametrów rozkładu, (ponieważ polega on na badaniu jego kształtu poprzez statystyki porządkowe)(Kubala M. 2020, s.2). "Jest najbardziej zalecanym testem normalności rozkładu, jednakże może dawać mylne wyniki dla liczebności próbek powyżej 2000. Wymaga, żeby cecha miała rozkład ciągły".(Billewicz K. 2011, s. 78)

Test Shapiro-Wilka pierwotnie był ograniczony dla wielkości próby mniejszej niż 50. Był on pierwszym testem, który był w stanie wykryć odstępstwa od normalności z powodu skośności i/lub kurtozy. Stał się preferowanym testem ze względu na swoją silną moc. Test jest oparty na szacowaniu średniej odległości wykresu kwantyl-kwantyl od prostej. Może być stosowany dla małych prób. Jest mało wrażliwy np. na autokorelację (Razali Mohd N., Yap B. Wah 2011, s. 25).

Hipotezę zerową tego testu można przedstawić następująco:

H0: Badana próba pochodzi z populacji o rozkładzie normalnym;

W związku z tym hipoteza alternatywna brzmi:

H1: Badana próba nie pochodzi z populacji o rozkładzie normalnym (Billewicz K. 2011, s. 78)

TL;DR

Test Shapiro-Wilka jest nieparametrycznym testem normalności rozkładu. Jest preferowanym testem, ale może dawać mylne wyniki dla próbek powyżej 2000. Test opiera się na szacowaniu odległości wykresu kwantyl-kwantyl od prostej. Może być stosowany dla małych prób i jest mało wrażliwy na autokorelację. Test ma hipotezę zerową, że badana próba pochodzi z populacji o rozkładzie normalnym, i hipotezę alternatywną, że próba nie pochodzi z populacji o rozkładzie normalnym. Test można poprawić za pomocą wartości a_i obliczanych iteracyjnie. Przykład zastosowania testu pokazuje, że hipoteza o normalności rozkładu może zostać odrzucona.

Wzór testu Shapiro-Wilka

W= ${\frac {{\bigg (}\sum _{i=1}^{[n/2]}a_{n-i+1}(e_{n-i+1}-e_{i}{\bigg )}^{2}}{\sum _{i=1}^{n}(e_{i}-{\bar {e}})^{2}}}$

Gdzie:

a_i to współczynnik Shapiro-Wilka, stała, będąca zależna od n oraz od k, e_i - reszty modelu uporządkowane w kolejności rosnącej.

Obszar odrzucenia hipotezy jest lewostronny:

${\big (}0,W_{n,\alpha }^{*}{\big \rangle }$

gdzie:

W^*_n,α to wartość krytyczna.

Odczytujemy ją z tablic wartości krytycznych do testu Shapiro-Wilka dla określonego n i α, Oznaczana jest również jako W* (Billewicz K. 2011, s. 78)

Wartość W zawiera się pomiędzy zero a jeden. Małe wartości W prowadzą do odrzucenia normalności, natomiast wartość jeden wskazuje normalność danych (Razali Mohd N., Yap B. Wah 2011, s. 25).

Konstrukcja funkcji testowej

1) Porządkujemy wszystkie wartości od najmniejszej wartości do największej i nadajemy im kolejne indeksy i od 1 do n, gdzie n jest liczebnością próby. (tworzymy szereg wartości x₁, x₂...x_n;)

2) Dla m= $[{\frac {n}{2}}]$ obliczamy sumę $b=\sum _{i=1}^{m}a_{i}(x_{n+1-i}-x_{i}),$ czyli sumujemy różnice pomiędzy pierwszą największą wartością a pierwszą najmniejszą, drugą największą a drugą najmniejszą itd., aż dochodzimy do wartości spotykających się w środku uporządkowanego szeregu. Każda taka różnica jest przemnożona dodatkowo przez pewną wagę a_i;

3) Liczymy sumę kwadratów odchyleń od wartości średniej $S^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}}\ )^{2}$

Program Excel nie posiada funkcji liczącej bezpośrednio statystykę W, ani p-wartość takiej statystyki. Dlatego podczas dokonywania analizy musimy posługiwać się stabelaryzowanym rozkładem i na jego podstawie wyznaczać wartość krytyczną W_kr, a następnie porównywać z nią wartość obserwowaną W.

W pierwotnej, oryginalnej pracy autorstwa Shapiro i Wilka tablice wartości statystyki W oraz współczynniki a_i, które są potrzebne do obliczenia jej wartości obserwowanej, zostały podane dla prób w zakresie 3 ≤ n ≤ 50. Aktualnie zostały opracowane algorytmy, które pozwalającą na obliczenie statystyki i współczynników dla prób o wielkości 3 ≤ n ≤ 5000 (Kubala M. 2020, s. 2-3).

Poprawa testu Shapiro-Wilka

Wartości a_i, które zostały podane w tablicach Shapiro i Wilka oraz w innych pracach zawierają pewne błędy. Royston (1992) podał metodę iteracyjną, za pomocą której obliczamy wartości a_i . W pracy wartości a_i obliczamy ze wzorów:

a = [a₁, a₂,... , a_n] = ${\frac {m'V^{-}1}{{\sqrt {m}}'V^{-}1V^{-1m}}}$

$m_{i}=E(x_{i}:n)=n({\frac {n-1}{i-1}})\textstyle \int \limits _{0}^{1}x^{n-i}(1-x)^{n-i}\Theta ^{-1}(x)dx$

V= [cov (X_i:n, X_j:n)]_{i, j=1,..., n}=m_ij-m_im_j

m_ij=E (X_i:n, X_j:n)= ${\frac {n!}{(i-1)!(j-i-1)!(n-j)!}}\textstyle \int \limits _{0}^{1}\textstyle \int \limits _{x}^{1}x^{i-1}(y-x)^{j-i-1}(1-y)^{n-j}\Theta ^{-1}(x)\Theta ^{-1}(y)dxdy$ (Hanusz Z., Tarasińska J. 2012, s. 5)

Przykład zastosowania testu

"Zmierzono czas pracy wykonywania pewnego typu elementów otrzymując : 12.4, 14.2, 14.9, 15.6, 6.1, 16.8, 17.3, 7.9, 8.2, 8.6, 19.3, 9.7, 20.4, 1.9, 22.8, 23.7, 25.2, 25.9, 27.4. Na poziomie istotności α = 0.1 zweryfikować testem Shapiro-Wilka hipoteze o normalności rozkładu.

n=19

i	x_(20−i) − x_(i)	a_i(n)	a_i(n)(x_(20−i) − x_(i))
1	27.4-12.4=15	0.4808	7.21200
2	25.9-14.2=11.7	0.3232	3.78144
3	25.2-14.9=10.3	0.2561	2.63783
4	27.3-15.6 =8.1	0.2059	1.66779
5	22.8-16.1=6.7	0.1641	1.09947
6	21.9-16.8=5.1	0.1271	0.64821
7	20.4-17.3 =3.1	0.0932	0.28892
8	19.7-17.9 =1.8	0.0612	0.11016
9	19.3-18.2=1.1	0.0303	0.03333
			17.47915

${\bar {x}}\$ = 19.3842, $S^{2}$ = 730.57 zatem $W={\frac {(17.47915)^{2}}{730.57}}=0.418$

Wartości w₁, w₂ odczytane z tablic wynoszą w₁ = 0.901, w₂ = 0.982, 0.418 ∈ Q = (−∞, 0.901) ∪ (0.982,∞) zatem odrzucamy hipotezę H₀ normalności rozkładu czau wykonywania elementu".

Test Shapiro-Wilka — artykuły polecane
Metody statystyczne — Estymator obciążony — Mediana wzór — Kwartyl — Analiza regresji — Przedział ufności — Schemat Bernoulliego — Estymator nieobciążony — Błąd bezwzględny — Rodzaje kontraktów w projektach

Bibliografia

Billewicz K. (2008), Test normalności rozkładu wartości poboru energii, Przegląd elektrotechniczny, nr 4
Hanusz Z., Tarasińska J. (2012), O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka, Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie
Kubala M. (2020), Testy normalności rozkładu, Wydział Inżynierii Środowiska Politechnika Krakowska
Razali M., Yap B. (2011), Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests, Journal of Statistical Modeling and Analytics nr 1
Royston P. (1992), Approximating the Shapiro-Wilk W test for non-normality, Statistics and Computing nr 2

Autor: Barbara Treśka

@@ Linia 1: / Linia 1: @@
-{{infobox4
-|list1=
-<ul>
-<li>[[Metody statystyczne]]</li>
-<li>[[Estymator obciążony]]</li>
-<li>[[Mediana wzór]]</li>
-<li>[[Kwartyl]]</li>
-<li>[[Analiza regresji]]</li>
-<li>[[Przedział ufności]]</li>
-<li>[[Schemat Bernoulliego]]</li>
-<li>[[Estymator nieobciążony]]</li>
-<li>[[Błąd bezwzględny]]</li>
-</ul>
-}}
 '''Test Shapiro-Wilka''' jest jednym z testów normalności rozkładu. Test ten jest
 nieparametryczny, czyli nie jest oparty na żadnych wstępnych założeniach co do parametrów rozkładu, (ponieważ polega on na badaniu jego kształtu poprzez statystyki porządkowe)(Kubala M. 2020, s.2). "Jest najbardziej zalecanym testem
 normalności rozkładu, jednakże może dawać mylne wyniki
 dla liczebności próbek powyżej 2000. Wymaga, żeby
-cecha miała rozkład ciągły."(Billewicz K. 2011, s. 78)
+cecha miała rozkład ciągły".(Billewicz K. 2011, s. 78)
-Test Shapiro-Wilka pierwotnie był ograniczony dla wielkości próby mniejszej niż 50. Był on pierwszym testem, który był w stanie wykryć odstępstwa od normalności z powodu skośności i/lub kurtozy. Stał się preferowanym testem ze względu na swoją silną moc. Test jest oparty  na szacowaniu średniej odległości wykresu [[kwantyl]]-kwantyl od prostej. Może być
+Test Shapiro-Wilka pierwotnie był ograniczony dla wielkości próby mniejszej niż 50. Był on pierwszym testem, który był w stanie wykryć odstępstwa od normalności z powodu skośności i/lub kurtozy. Stał się preferowanym testem ze względu na swoją silną moc. Test jest oparty na szacowaniu średniej odległości wykresu [[kwantyl]]-kwantyl od prostej. Może być
-stosowany dla małych prób. Jest mało wrażliwy np. na autokorelację (Razali Mohd N., Yap B. Wah  2011, s. 25).
+stosowany dla małych prób. Jest mało wrażliwy np. na autokorelację (Razali Mohd N., Yap B. Wah 2011, s. 25).
 Hipotezę zerową tego testu można przedstawić następująco:
@@ Linia 27: / Linia 13: @@
 W związku z tym [[hipoteza]] alternatywna brzmi:
-<google>t</google>
 H1: Badana próba nie pochodzi z populacji o rozkładzie normalnym
@@ Linia 34: / Linia 19: @@
 ==TL;DR==
 Test Shapiro-Wilka jest nieparametrycznym testem normalności rozkładu. Jest preferowanym testem, ale może dawać mylne wyniki dla próbek powyżej 2000. Test opiera się na szacowaniu odległości wykresu kwantyl-kwantyl od prostej. Może być stosowany dla małych prób i jest mało wrażliwy na autokorelację. Test ma hipotezę zerową, że badana próba pochodzi z populacji o rozkładzie normalnym, i hipotezę alternatywną, że próba nie pochodzi z populacji o rozkładzie normalnym. Test można poprawić za pomocą wartości a<sub>i</sub> obliczanych iteracyjnie. Przykład zastosowania testu pokazuje, że hipoteza o normalności rozkładu może zostać odrzucona.
+<google>n</google>
 ==Wzór testu Shapiro-Wilka==
@@ Linia 41: / Linia 28: @@
 Gdzie:
-* a<sub>i</sub> to współczynnik Shapiro–Wilka, stała, będąca zależna od n oraz od k, e<sub>i</sub> – reszty modelu uporządkowane w kolejności rosnącej.
+* a<sub>i</sub> to współczynnik Shapiro-Wilka, stała, będąca zależna od n oraz od k, e<sub>i</sub> - reszty modelu uporządkowane w kolejności rosnącej.
 [[Obszar odrzucenia]] hipotezy jest lewostronny:
 * <math>\big( 0, W^*_{n, \alpha} \big \rangle</math>
@@ Linia 47: / Linia 34: @@
 * W<sup>*</sup><sub>n,α</sub> to [[wartość]] krytyczna.
-Odczytujemy ją z tablic wartości krytycznych do testu Shapiro–Wilka dla określonego n i α, Oznaczana jest również jako W* (Billewicz K. 2011, s. 78)
+Odczytujemy ją z tablic wartości krytycznych do testu Shapiro-Wilka dla określonego n i α, Oznaczana jest również jako W* (Billewicz K. 2011, s. 78)
 Wartość '''W''' zawiera się pomiędzy zero a jeden. Małe wartości '''W''' prowadzą do odrzucenia normalności, natomiast wartość jeden wskazuje normalność danych (Razali Mohd N., Yap B. Wah 2011, s. 25).
 ==Konstrukcja funkcji testowej==
 ) Porządkujemy wszystkie wartości od najmniejszej wartości do największej i nadajemy im kolejne indeksy ''i'' od 1 do n, gdzie n jest liczebnością próby. (tworzymy szereg wartości x<sub>1</sub>, x<sub>2</sub>...x<sub>n</sub>;)
-) Dla m= 	<math> [\frac{n}{2}] </math> obliczamy sumę <math> b=\sum_{i=1}^m a_i (x_{n+1-i} -x_i),
+) Dla m= <math> [\frac{n}{2}] </math> obliczamy sumę <math> b=\sum_{i=1}^m a_i (x_{n+1-i} -x_i),
 </math> czyli sumujemy różnice pomiędzy
 pierwszą największą wartością a pierwszą najmniejszą, drugą największą a drugą najmniejszą itd.,
@@ Linia 61: / Linia 47: @@
 pewną wagę a<sub>i</sub>;
-) Liczymy sumę kwadratów odchyleń od wartości średniej <math> S^2=\sum_{i=1}^n (x_i-  \bar x \  )^2 </math>
+) Liczymy sumę kwadratów odchyleń od wartości średniej <math> S^2=\sum_{i=1}^n (x_i- \bar x \ )^2 </math>
-[[Program]] Excel nie posiada funkcji liczącej bezpośrednio statystykę W, ani p-wartość takiej statystyki. Dlatego podczas dokonywania analizy musimy posługiwać się  stabelaryzowanym rozkładem i na jego
+[[Program]] Excel nie posiada funkcji liczącej bezpośrednio statystykę W, ani p-wartość takiej statystyki. Dlatego podczas dokonywania analizy musimy posługiwać się stabelaryzowanym rozkładem i na jego
 podstawie wyznaczać wartość krytyczną W<sub>kr</sub>, a następnie porównywać z nią wartość
 obserwowaną W.
-W pierwotnej, oryginalnej pracy autorstwa Shapiro i Wilka tablice wartości statystyki W oraz współczynniki a<sub>i</sub>,które są potrzebne
+W pierwotnej, oryginalnej pracy autorstwa Shapiro i Wilka tablice wartości statystyki W oraz współczynniki a<sub>i</sub>, które są potrzebne
 do obliczenia jej wartości obserwowanej, zostały podane dla prób w zakresie 3 ≤ n ≤ 50. Aktualnie
 zostały opracowane algorytmy, które pozwalającą na obliczenie statystyki i współczynników dla prób o
@@ Linia 79: / Linia 65: @@
 W pracy wartości a<sub>i</sub> obliczamy ze wzorów:
-a = [a<sub>1</sub>, a<sub>2</sub>, ... , a<sub>n</sub>] = <math>\frac{m'V^ - 1}{\sqrt m'V^-1 V^{-1m}}</math>
+a = [a<sub>1</sub>, a<sub>2</sub>,... , a<sub>n</sub>] = <math>\frac{m'V^ - 1}{\sqrt m'V^-1 V^{-1m}}</math>
 <math>m_i = E(x_i:n) = n (\frac{n-1}{i-1}) \textstyle \int \limits_{0}^{1} x^{n-i} (1 - x)^{n - i} \Theta^{-1} (x)dx</math>
-V= [cov(X<sub>i:n</sub>,X<sub>j:n</sub>)]<sub>i,j=1,...,n</sub>=m<sub>ij</sub>-m<sub>i</sub>m<sub>j</sub>
+V= [cov (X<sub>i:n</sub>, X<sub>j:n</sub>)]<sub>i, j=1,..., n</sub>=m<sub>ij</sub>-m<sub>i</sub>m<sub>j</sub>
-m<sub>ij</sub>=E(X<sub>i:n</sub>,X<sub>j:n</sub>)= <math>\frac{n!}{(i-1)!(j-i-1)!(n-j)!} \textstyle \int \limits_{0}^{1} \textstyle \int \limits_{x}^{1} x^{i-1} (y-x)^{j-i-1}(1-y)^{n-j} \Theta^{-1}(x) \Theta^{-1}(y)dxdy</math>
+m<sub>ij</sub>=E (X<sub>i:n</sub>, X<sub>j:n</sub>)= <math>\frac{n!}{(i-1)!(j-i-1)!(n-j)!} \textstyle \int \limits_{0}^{1} \textstyle \int \limits_{x}^{1} x^{i-1} (y-x)^{j-i-1}(1-y)^{n-j} \Theta^{-1}(x) \Theta^{-1}(y)dxdy</math>
 (Hanusz Z., Tarasińska J. 2012, s. 5)
@@ Linia 103: / Linia 89: @@
 | 1 || 27.4-12.4=15|| 0.4808 || 7.21200
 |-
-| 2 || 25.9-14.2=11.7  || 0.3232 || 3.78144
+| 2 || 25.9-14.2=11.7 || 0.3232 || 3.78144
 |-
 | 3 || 25.2-14.9=10.3 || 0.2561 || 2.63783
@@ Linia 119: / Linia 105: @@
 | 9 || 19.3-18.2=1.1 || 0.0303 || 0.03333
 |-
-|  || || || 17.47915
+| || || || 17.47915
 |}
-<math>  \bar x \  </math>  = 19.3842,
+<math> \bar x \ </math> = 19.3842,
-<math> S^2 </math>  = 730.57 zatem
+<math> S^2 </math> = 730.57 zatem
 <math> W = \frac{(17.47915)^2}{730.57}=0.418 </math>
 Wartości w<sub>1</sub>, w<sub>2</sub> odczytane z tablic wynoszą w<sub>1</sub> = 0.901, w<sub>2</sub> = 0.982,
 .418 ∈ Q = (−∞, 0.901) ∪ (0.982,∞) zatem odrzucamy hipotezę H<sub>0</sub>
-normalności rozkładu czau wykonywania elementu."
+normalności rozkładu czau wykonywania elementu".
-(Wawrzyniak-Kosz W. 2020, s. 2)
+{{infobox5|list1={{i5link|a=[[Metody statystyczne]]}} &mdash; {{i5link|a=[[Estymator obciążony]]}} &mdash; {{i5link|a=[[Mediana wzór]]}} &mdash; {{i5link|a=[[Kwartyl]]}} &mdash; {{i5link|a=[[Analiza regresji]]}} &mdash; {{i5link|a=[[Przedział ufności]]}} &mdash; {{i5link|a=[[Schemat Bernoulliego]]}} &mdash; {{i5link|a=[[Estymator nieobciążony]]}} &mdash; {{i5link|a=[[Błąd bezwzględny]]}} &mdash; {{i5link|a=[[Rodzaje kontraktów w projektach]]}} }}
 ==Bibliografia==
 <noautolinks>
-* Billewicz K. (2008), ''Test normalności rozkładu wartości poboru energii'', "Przegląd elektrotechniczny", nr 4, s. 78-79
+* Billewicz K. (2008), ''Test normalności rozkładu wartości poboru energii'', Przegląd elektrotechniczny, nr 4
-* Hanusz Z.,  Tarasińska J. (2012), ''O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka'' , Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie
+* Hanusz Z., Tarasińska J. (2012), ''O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka'', Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie
-* Kubala M. (2020) ''Testy normalności rozkładu'', Wydział Inżynierii Środowiska Politechnika Krakowska
+* Kubala M. (2020), ''Testy normalności rozkładu'', Wydział Inżynierii Środowiska Politechnika Krakowska
-* Razali Mohd N., Yap B. Wah (2011) ''Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests'' , "Journal of Statistical Modeling and Analytics" nr 1, s. 25
+* Razali M., Yap B. (2011), ''Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests'', Journal of Statistical Modeling and Analytics nr 1
-* Royston P. (1992), ''Approximating the Shapiro-Wilk W test for non-normality'', "Statistics and Computing" nr 2, s. 117–119
+* Royston P. (1992), ''Approximating the Shapiro-Wilk W test for non-normality'', Statistics and Computing nr 2
-* Wawrzyniak-Kosz W. (2020), [http://prac.im.pwr.wroc.pl/~wkosz/testnorm.pdf ''Testnorm'' ], Wydział Inżynierii Środowiska Politechnika Krakowska
 </noautolinks>
-[[Kategoria:Statystyka i Ekonometria]]
+[[Kategoria:Miary statystyczne]]
 {{a|Barbara Treśka}}
 {{#metamaster:description|Test Shapiro-Wilka - nieparametryczny test normalności rozkładu. Silny i zalecany, ale może być mylący dla dużych próbek. Stosowany dla małych prób.}}

Anonimowy

Szukaj

Test Shapiro-Wilka: Różnice pomiędzy wersjami

Aktualna wersja na dzień 23:06, 19 gru 2023

TL;DR

Wzór testu Shapiro-Wilka

Konstrukcja funkcji testowej

Poprawa testu Shapiro-Wilka

Przykład zastosowania testu

Bibliografia

Nawigacja

Encyklopedia

Spis treści

Spis treści

Narzędzia wiki

Anonimowy

Szukaj

Test Shapiro-Wilka: Różnice pomiędzy wersjami

Aktualna wersja na dzień 23:06, 19 gru 2023

TL;DR

Wzór testu Shapiro-Wilka

Konstrukcja funkcji testowej

Poprawa testu Shapiro-Wilka

Przykład zastosowania testu

Bibliografia

Nawigacja

Spis treści

Narzędzia wiki

Kategorie