Kwartyl

Kwartyl
Polecane artykuły

Kwartyl - jest jedną z miar tendencji centralnej, które służą do wyznaczania tej wartości cechy, wokół której grupują się dane. Chodzi zatem o skoncentrowanie większości danych wokół jakiegoś reprezentanta badanej cechy.

W grupie miar pozycyjnych (miar tendencji centralnej) wyróżnić można kwantyle, spośród których najczęściej używanymi miarami są kwartyle (wartości ćwiartkowe). Są to takie wartości cechy, które dzielą szereg statystyczny opisujący strukturę zbiorowości statystycznej na cztery równe części co do liczebności.

Rodzaje

Wyróżnia się kwartyl pierwszy, kwartyl drugi i kwartyl trzeci.
Kwartyl pierwszy Q1 (dolny) dzieli uporządkowaną niemalejąco zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości zmiennej mniejsze lub równe kwartylowi pierwszemu Q1, a 75% równe lub większe od tego kwartyla.
Kwartyl drugi Q2 (mediana, wartość środkowa) dzieli uporządkowaną niemalejąco zbiorowość na dwie części w ten sposób, że połowa jednostek zbiorowości ma wartości zmiennej równe lub większe od mediany, stąd też mediana bywa nazywana wartością środkową.
Kwartyl trzecie Q3 (górny) dzieli uporządkowaną niemalejąco zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości zmiennej mniejsze lub równe kwartylowi trzeciemu Q3, a 25% równe lub większe od tego kwartyla.
Z szeregów szczegółowych uporządkowanych rosnąco kwartyl drugi, nazywany jest medianą. Wyznaczany jest za pomocą wzoru:
\[Me=x_{ {n+1 \over 2} } \], gdy n jest nieparzyste oraz \(Me={1 \over 2}(x_{ {n \over 2} } + x_{{n \over 2}+1})\), gdy n jest parzyste.
Gdy liczba obserwacji jest nieparzysta, wówczas medianą jest wartość środkowa. Jeżeli liczebność zbiorowości jest liczba parzystą, przyjmuje się, że mediana jest średnią arytmetyczną dwóch środkowych wartości zmiennej.
Kwartyl pierwszy i trzeci z szeregu szczegółowego wyznacza się w sposób analogiczny jak medianę. Zbiorowość dzieli się na dwie rozłączne części: pierwszą, której jednostki przyjmują wartości nie większe od mediany i drugą, złożoną z pozostałych jednostek. Dla każdej z tych części można wyznaczyć ponownie medianę według zamieszczonego wyżej wzoru.
Dla pierwszej części wartość mediany będzie odpowiadała kwartylowi pierwszemu (Q1), a dla drugiej - kwartylowi trzeciemu (Q3).
Ogólna formuła na wyznaczenie dowolnego kwantyla w przypadku, gdy mamy uporządkowany ciąg pomiarów (liczb).
Kwantyl rzędu p wyznaczamy z formuły:
\[q_{p} = x_{[pn] + 1} \]
gdzie[] to części całkowite z liczby (np. [3,24]=3, [4,99]=4 itd.)

Przykład 1

Liczba godzin spędzona przed telewizorem dla losowo wybranej grupy 20 widzów:
25 41 27 32 43 66 35 31 15 5 34 26 32 38 16 30 38 30 20 21
Wyznaczyć kwartyle rozkładu:
Rozwiązanie:
  • Krok 1. Porządkujemy dane w kolejności nie malejącej:
5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66
  • Krok 2. Szukamy kwartyli:
\[𝑄{1} = 𝑞_{0.25} = 𝑥_{[0.25\ 20] + 1} = 𝑥_{6}=25\]
5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66
  • Kwartyl 2
\[𝑄{2} = 𝑞_{0.5} = 𝑥_{[0.5\ 20] + 1} = 𝑥_{11}=31\]
5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66
  • Kwartyl 3
\[𝑄{3} = 𝑞_{0.75} = 𝑥_{[0.75\ 20] + 1} = 𝑥_{15+ 1}=38\]
5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66
Int.
𝑄1 jedna czwarta (25%) widzów spędza przed TV nie więcej niż 25 godzin tygodniowo. Pozostała część widzów tj. trzy czwarte (75%) spędza przed TV co najmniej 25 godzin.
𝑄2 połowa (50%) widzów spędza przed TV nie więcej niż 31 godzin tygodniowo. Druga połowa widzów spędza przed TV co najmniej 31 godzin.
Wyznaczenie mediany z szeregu rozdzielczego punktowego sprowadza się do wskazania jednostki środkowej i odczytania wariantu zmiennej odpowiadającej tej jednostce. Określenie środkowej jednostki ułatwia kumulacja liczebności, która polega na kolejnym, narastającym sumowaniu liczebności dotyczących poszczególnych wariantów badanej zmiennej. Jeżeli kumulacji podlegają częstości względne, a nie liczebności absolutne, to otrzymany zbiór danych określa się mianem dystrybuanty empirycznej. Graficznym obrazem kształtowania się liczebności skumulowanej jest histogram liczebności skumulowanej lub diagram liczebności skumulowanej.
Z szeregów rozdzielczych przedziałowych kwartyle wyznacza się metodą analityczną lub graficzną. Korzystając z metody analitycznej stosowane są następujące wzory interpolacyjne:
\[ Q_{1}=x_{s}+{i_{s} \over f_{s}}({n \over 4}- \sum\limits_{i=1}^{s-1} f_{i}) \]
\[ Q_{2}=x_{s}+{i_{s} \over f_{s}}({n \over 2}- \sum\limits_{i=1}^{s-1} f_{i}) \]
\[ Q_{3}=x_{s}+{i_{s} \over f_{s}}({3 \over 4}n- \sum\limits_{n=1}^{s-1} f_{i}) \]
gdzie:
Q1, Q2, Q3 - kwartyl pierwszy, drugi i trzeci,
s - numer kwartyla,
xs - dolny kres przedziału, w którym znajdują się Q1, Q2 i Q3,
is - rozpiętość (interwał) przedziału, w którym znajdują się Q1, Q2 i Q3,
fs - liczebność przedziału, w którym znajdują się Q1, Q2 i Q3,
\[n=\sum\limits_{i=1}^k f_i \] - ogólna liczebność danej zbiorowości,
k - liczba klas,
\[ \sum\limits_{i=1}^{s-1} f_i \] - suma liczebności od klasy pierwszej do poprzedzającej przedział określonego kwartyla.
We wzorach liczebność fi można zastąpić częstościami występowania wartości badanej cechy ({fi /over n}).

Przykład 2

Wyznaczyć Q1, Q2, Q2 na podstawie danych zawartych w tablicy. Obliczamy:
\[n=\sum_{i=1}^7 f_{i}=49 \]
\[\frac{n}{4}=\frac{49}{4}=12,25 \]
\[\frac{n}{2}=\frac{49}{2}=24,5 \]
\[\frac{3}{4}n=\frac{3}{4}\cdot49=36,75 \]
Odpowiedni szereg kumulacyjny pokazano w kolumnie 3 tablicy. Analiza danych kolumny trzeciej prowadzi do wniosku, że kwartyl pierwszy znajduje się w przedziale klasowym 4-6, mediana- w przedziale 6-8, a kwartyl trzeci w przedziale 8-10.

Powierzchnia ogólna województw (tys. \( km^2 \), stan na 31.12.1997 r.)

Powierzchnia ogólna (w tys. \( km^2 \)) \( <x_{i}, x_{i+1}\)) Liczba województw \(f_{i}\) Liczba kumulacyjna cum \(f_{i}\)
1-2 
2-4
4-6 Q1
6-8 Q2=Me
8-10 Q3
10-12
12-14
1
6
14
15
9
3
1
1
7
21
36
45
48
49
x \(\sum_{i=1}^7 f_{i}=49 \) x
Wyznaczymy teraz kwartyle Q1, Q2, Q3 według wzorów interpolacyjnych. mamy zatem:
\[ Q_{1}=4+\frac{2}{14}\left (12,25-7 \right)=4 + 0,75=4,75 \]
\[ Q_{2}=6+\frac{2}{15}\left (24,5-21 \right)=6 + 0,47=6,466 \]
\[ Q_{3}=8+\frac{2}{9}\left (36,75-36 \right)=8 + 0,167=8,167 \]
Kwartyl Q1 informuje, że 25% byłych województw miało powierzchnię nie przekraczającą 4,75 tys. \( km^2 \), a powierzchnia pozostałych 75% województw nie była mniejsza niż 4,75 \( km^2 \).
Kwartyl drugi, czyli mediana Q2, dzieli zbiór byłych województw na dwie równe części: 50% byłych województw miało powierzchnię nie większą niż 6,466 tys. \( km^2 \), a 50%- nie mniejszą.
Kwartyl trzeci Q3 oznacza, że 75% byłych województw miało powierzchnię mniejszą lub równą 8,167 tys. \( km^2 \), a pozostałe 25% województw- większą lub równą 8,167 tys. \( km^2 \)
Kwartyle można wyznaczyć również za pomocą wspomnianej już metody graficznej. Polega ona na sporządzeniu w układzie współrzędnych prostokątnych wykresu szeregu skumulowanego, tzw. krzywej ogiwalnej. Aby tę krzywą wykreślić, łączy się skumulowane liczebności z górnymi kresami przedziałów klasowych. Następnie na osi rzędnych zaznacza się \({n \over 4}, {n \over 2}, {3 \over 4}n \) i z punktów tych kreśli proste równoległe do osi x, które przecinają krzywą ogiwalną. Punkty przecięcia tych prostych krzywą liczebności kumulacyjnej rzutuje się na oś x i w ten sposób wyznaczone zostają Q1, Q2 i Q3.
Na kwartylach opiera się ważne w statystyce odchylenie ćwiartkowe Q. Jest ono połową różnicy między trzecim a pierwszym kwartylem, czyli:
\[Q={1 \over 2}(Q_3-Q_1)\]
Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek należących do badanej zbiorowości. Na wartość odchylenia ćwiartkowego nie mają wpływu wartości jednostek mniejszych od kwartyla pierwszego (xi<Q1) oraz większych od kwartyla trzeciego (xi>Q3). Miara ta nie jest więc wrażliwa na skrajne (nietypowe) wartości z tego powodu zaleca się jej stosowanie w praktyce.

Bibliografia

Autor: Aleksandra Rajfura, Ewa Ćwięka