Test Shapiro-Wilka

Test Shapiro-Wilka
Polecane artykuły

Test Shapiro-Wilka jest jednym z testów normalności rozkładu. Test ten jest nieparametryczny, czyli nie jest oparty na żadnych wstępnych założeniach co do parametrów rozkładu, (ponieważ polega on na badaniu jego kształtu poprzez statystyki porządkowe)(Kubala M. 2020, s.2). "Jest najbardziej zalecanym testem normalności rozkładu, jednakże może dawać mylne wyniki dla liczebności próbek powyżej 2000. Wymaga, żeby cecha miała rozkład ciągły."(Billewicz K. 2011, s. 78)

Test Shapiro-Wilka pierwotnie był ograniczony dla wielkości próby mniejszej niż 50. Był on pierwszym testem, który był w stanie wykryć odstępstwa od normalności z powodu skośności i/lub kurtozy. Stał się preferowanym testem ze względu na swoją silną moc. Test jest oparty na szacowaniu średniej odległości wykresu kwantyl-kwantyl od prostej. Może być stosowany dla małych prób. Jest mało wrażliwy np. na autokorelację (Razali Mohd N., Yap B. Wah 2011, s. 25).

Hipotezę zerową tego testu można przedstawić następująco:

H0: Badana próba pochodzi z populacji o rozkładzie normalnym;

W związku z tym hipoteza alternatywna brzmi:

H1: Badana próba nie pochodzi z populacji o rozkładzie normalnym (Billewicz K. 2011, s. 78)

Wzór testu Shapiro-Wilka

W= \( \frac{ \bigg( \sum_{i=1}^{[n/2]} a_{n-i+1} (e_{n-i+1} - e_i \bigg) ^2 } {\sum_{i=1}^n (e_i - \bar{e} )^2 } \)

Gdzie:

  • ai to współczynnik Shapiro–Wilka, stała, będąca zależna od n oraz od k, ei – reszty modelu uporządkowane w kolejności rosnącej.

Obszar odrzucenia hipotezy jest lewostronny:

  • \(\big( 0, W^*_{n,α} \big\rangle \)

gdzie:

Odczytujemy ją z tablic wartości krytycznych do testu Shapiro–Wilka dla określonego n i α, Oznaczana jest również jako W* (Billewicz K. 2011, s. 78)

Wartość W zawiera się pomiędzy zero a jeden. Małe wartości W prowadzą do odrzucenia normalności, natomiast wartość jeden wskazuje normalność danych (Razali Mohd N., Yap B. Wah 2011, s. 25).

Konstrukcja funkcji testowej

1) Porządkujemy wszystkie wartości od najmniejszej wartości do największej i nadajemy im kolejne indeksy i od 1 do n, gdzie n jest liczebnością próby. (tworzymy szereg wartości x1, x2...xn;)

2) Dla m= \( [\frac{n}{2}] \) obliczamy sumę \( b=\sum_{i=1}^m a_i (x_{n+1-i} -x_i), \) czyli sumujemy różnice pomiędzy pierwszą największą wartością a pierwszą najmniejszą, drugą największą a drugą najmniejszą itd., aż dochodzimy do wartości spotykających się w środku uporządkowanego szeregu. Każda taka różnica jest przemnożona dodatkowo przez pewną wagę ai;

3) Liczymy sumę kwadratów odchyleń od wartości średniej \( S^2=\sum_{i=1}^n (x_i- \bar x \ )^2 \)

Program Excel nie posiada funkcji liczącej bezpośrednio statystykę W, ani p-wartość takiej statystyki. Dlatego podczas dokonywania analizy musimy posługiwać się stabelaryzowanym rozkładem i na jego podstawie wyznaczać wartość krytyczną Wkr, a następnie porównywać z nią wartość obserwowaną W.

W pierwotnej, oryginalnej pracy autorstwa Shapiro i Wilka tablice wartości statystyki W oraz współczynniki ai,które są potrzebne do obliczenia jej wartości obserwowanej, zostały podane dla prób w zakresie 3 ≤ n ≤ 50. Aktualnie zostały opracowane algorytmy, które pozwalającą na obliczenie statystyki i współczynników dla prób o wielkości 3 ≤ n ≤ 5000 (Kubala M. 2020, s. 2-3).

Poprawa testu Shapiro-Wilka

Wartości ai, które zostały podane w tablicach Shapiro i Wilka oraz w innych pracach zawierają pewne błędy. Royston (1992) podał metodę iteracyjną, za pomocą której obliczamy wartości ai . W pracy wartości ai obliczamy ze wzorów:

a = [a1, a2, . . . , an] = \( \frac{m'V^−1}{\sqrt m'V^-1 V^-1m}\)

\(m_i=E(x_i:n)=n (\frac{n-1}{i-1})\textstyle \int\limits_{0}^{1} x^{n-i} (1-x)^{n-i}Φ ^{-1}\, (x)dx \)

V= [cov(Xi:n,Xj:n)]i,j=1,...,n=mij-mimj

mij=E(Xi:n,Xj:n)= \( \frac{n!}{(i-1)!(j-i-1)!(n-j)!} \textstyle \int\limits_{0}^{1} \, \textstyle \int\limits_{x}^{1} x^{i-1} (y-x)^{j-i-1}(1-y)^{n-j}Φ^{-1}(x)Φ^{-1}(y)\,dxdy\) (Hanusz Z., Tarasińska J. 2012, s. 5)

Przykład zastosowania testu

"Zmierzono czas pracy wykonywania pewnego typu elementów otrzymując : 12.4, 14.2, 14.9, 15.6, 6.1, 16.8, 17.3, 7.9, 8.2, 8.6, 19.3, 9.7, 20.4, 1.9, 22.8, 23.7, 25.2, 25.9, 27.4. Na poziomie istotności α = 0.1 zweryfikować testem Shapiro-Wilka hipoteze o normalności rozkładu.

n=19

i x(20−i) − x(i) ai(n) ai(n)(x(20−i) − x(i))
1 27.4-12.4=15 0.4808 7.21200
2 25.9-14.2=11.7 0.3232 3.78144
3 25.2-14.9=10.3 0.2561 2.63783
4 27.3-15.6 =8.1 0.2059 1.66779
5 22.8-16.1=6.7 0.1641 1.09947
6 21.9-16.8=5.1 0.1271 0.64821
7 20.4-17.3 =3.1 0.0932 0.28892
8 19.7-17.9 =1.8 0.0612 0.11016
9 19.3-18.2=1.1 0.0303 0.03333
17.47915

\( \bar x \ \) = 19.3842, \( S^2 \) = 730.57 zatem \( W = \frac{(17.47915)^2}{730.57}=0.418 \)

Wartości w1, w2 odczytane z tablic wynoszą w1 = 0.901, w2 = 0.982, 0.418 ∈ Q = (−∞, 0.901) ∪ (0.982,∞) zatem odrzucamy hipotezę H0 normalności rozkładu czau wykonywania elementu." (Wawrzyniak-Kosz W. 2020, s. 2)

Bibliografia

Autor: Barbara Treśka