Wykres pudełkowy: Różnice pomiędzy wersjami

Z Encyklopedia Zarządzania
m (Infobox update)
 
(LinkTitles.)
Linia 18: Linia 18:


'''Wykres pudełkowy''' nazywany często wykresem skrzynkowym, ramkowym lub wykresem "ramka -wąsy" (z języka angielskiego- ''box plot''). Jest jednym z narzędzi [[Metody statystyczne|statystycznych metod]] [[Zarządzanie jakością|zarządzania jakością]]. Wykresy pudełkowe opracowywane są w oparciu o wartości [[Statystyka opisowa|statystyk opisowych]], dlatego ich zastosowanie ogranicza się do cech liczbowych. Stanowią prostą formę graficznej prezentacji '''rozkładu cechy statystycznej'''. Pozwalają na ujęcie na jednym rysunku wszystkich wiadomości, które dotyczą położenia, kształtu a także rozkładu empirycznego badanej cechy. Charakteryzuje je duża przejrzystość i zwięzłość. (M. Trzęsiok 2014, s.107) <br/>
'''Wykres pudełkowy''' nazywany często wykresem skrzynkowym, ramkowym lub wykresem "ramka -wąsy" (z języka angielskiego- ''box plot''). Jest jednym z narzędzi [[Metody statystyczne|statystycznych metod]] [[Zarządzanie jakością|zarządzania jakością]]. Wykresy pudełkowe opracowywane są w oparciu o wartości [[Statystyka opisowa|statystyk opisowych]], dlatego ich zastosowanie ogranicza się do cech liczbowych. Stanowią prostą formę graficznej prezentacji '''rozkładu cechy statystycznej'''. Pozwalają na ujęcie na jednym rysunku wszystkich wiadomości, które dotyczą położenia, kształtu a także rozkładu empirycznego badanej cechy. Charakteryzuje je duża przejrzystość i zwięzłość. (M. Trzęsiok 2014, s.107) <br/>
Wykres został zaproponowany przez '''Johna Tukeya''' w książce "Explanatory Data Analysis", wydanej w 1997 roku. Tukey uważa, że wymyślony przez niego wykres ma duża wartość i pozwala na odkrycie czegoś, czego się nie spodziewaliśmy- "The gratest value of a picture is when it forces us to notice what we never expected to see”.
Wykres został zaproponowany przez '''Johna Tukeya''' w książce "Explanatory Data Analysis", wydanej w 1997 roku. Tukey uważa, że wymyślony przez niego wykres ma duża [[wartość]] i pozwala na odkrycie czegoś, czego się nie spodziewaliśmy- "The gratest value of a picture is when it forces us to notice what we never expected to see”.
==Opis wykresu==
==Opis wykresu==
Wykres składa się z '''prostokąta''' (pudełka), '''osi współrzędnych''' i tak zwanych '''wąsów''', czyli odległości wartości minimalnej i maksymalnej od pudełka. Wykres ma formę minimalistyczną, ponieważ przedstawia '''tylko 5 informacji''' i chociaż wydaję się, że jest to niewiele, wykres ramka-wąsy przekazuje nam na bardzo dużo wiadomości. Najczęściej do jego sporządzenia musimy znać dokładne wartości: pierwszego i trzeciego kwartyla, mediany oraz minimum i maksimum. Dzięki tym danym możemy badać poziom rozproszenia danej czy odległości mediany od minimum i maksimum. (J. Łuczak 2007, s.255-258)  <br/>
Wykres składa się z '''prostokąta''' (pudełka), '''osi współrzędnych''' i tak zwanych '''wąsów''', czyli odległości wartości minimalnej i maksymalnej od pudełka. Wykres ma formę minimalistyczną, ponieważ przedstawia '''tylko 5 informacji''' i chociaż wydaję się, że jest to niewiele, wykres ramka-wąsy przekazuje nam na bardzo dużo wiadomości. Najczęściej do jego sporządzenia musimy znać dokładne wartości: pierwszego i trzeciego kwartyla, mediany oraz minimum i maksimum. Dzięki tym danym możemy badać poziom rozproszenia danej czy odległości mediany od minimum i maksimum. (J. Łuczak 2007, s.255-258)  <br/>
Linia 25: Linia 25:
==Typy wykresów pudełkowych==
==Typy wykresów pudełkowych==
Wyróżnia się następujące typy '''wykresów pudełkowych''': <br/>
Wyróżnia się następujące typy '''wykresów pudełkowych''': <br/>
1. Średnia/błąd standardowy/odchylenie standardowe <br/>
1. [[Średnia]]/błąd standardowy/odchylenie standardowe <br/>
2. Mediana/[[kwartyl]]e/minimum, maksimum <br/>
2. [[Mediana]]/[[kwartyl]]e/minimum, maksimum <br/>
3. Średnia/odchylenie standardowe/minimum maksimum <br/>
3. Średnia/odchylenie standardowe/minimum maksimum <br/>
4. Średnia/przedział ufności/odchylenie standardowe <br/>
4. Średnia/przedział ufności/odchylenie standardowe <br/>
Linia 35: Linia 35:
* Umieścić wzdłuż osi pudełko (skrzynkę), którego lewy bok wyznacza wartość kwartyla 1, natomiast prawy bok- wartość kwartyla 3.
* Umieścić wzdłuż osi pudełko (skrzynkę), którego lewy bok wyznacza wartość kwartyla 1, natomiast prawy bok- wartość kwartyla 3.
* Uzupełnić wykres dwoma odcinkami, które znajdują się na zewnątrz pudełka (tzw.: wąsy).  
* Uzupełnić wykres dwoma odcinkami, które znajdują się na zewnątrz pudełka (tzw.: wąsy).  
Wykres pudełkowy posiada dwa warianty: <br/>
Wykres pudełkowy posiada dwa [[warianty]]: <br/>
*'''prosty'''- bazuje na głównych statystykach; <br/>
*'''prosty'''- bazuje na głównych statystykach; <br/>
*'''złożony'''- używany do prezentacji wartości odstających, tzw. '''outlierów''';<br/>
*'''złożony'''- używany do prezentacji wartości odstających, tzw. '''outlierów''';<br/>
'''Wariant prosty''' <br/>
'''[[Wariant]] prosty''' <br/>
Do stworzenia prostego wykresu pudełkowego niezbędne jest 5 wartości: <br/>
Do stworzenia prostego wykresu pudełkowego niezbędne jest 5 wartości: <br/>
*Max- wartość maksymalna <br/>
*Max- wartość maksymalna <br/>
Linia 47: Linia 47:
[[Plik:Wariant_prosty_AgnieszkaGalka.png|400px|right|thumb|Rys.1. Wariant prosty]]<br/>
[[Plik:Wariant_prosty_AgnieszkaGalka.png|400px|right|thumb|Rys.1. Wariant prosty]]<br/>
Wąs to kreska, która łączy wartość minimalną (Min) i maksymalną (Max) z końcem pudełka. <br/>
Wąs to kreska, która łączy wartość minimalną (Min) i maksymalną (Max) z końcem pudełka. <br/>
Informacje dotyczące prostego wariantu: <br/>
[[Informacje]] dotyczące prostego wariantu: <br/>
* Długość pudełka równa się '''rozstępowi ćwiartkowemu''' ''<math>Q3-Q1</math>'' <br/>
* Długość pudełka równa się '''rozstępowi ćwiartkowemu''' ''<math>Q3-Q1</math>'' <br/>
* Wąsy mogą przybierać różną długość, w zależności od tego, ile wynosi wartość maksymalna i minimalna <br/>
* Wąsy mogą przybierać różną długość, w zależności od tego, ile wynosi wartość maksymalna i minimalna <br/>
Linia 71: Linia 71:
==Analiza wykresu==
==Analiza wykresu==
*'''Położenie'''- położenie obrazuje cały wykres pudełkowy (wartości min i max); <br/>
*'''Położenie'''- położenie obrazuje cały wykres pudełkowy (wartości min i max); <br/>
*'''Rozproszenie'''- im wykres jest dłuższy, tym dane są bardziej rozsiane, co oznacza, że mogą przyjmować zróżnicowane wartości. O rozproszeniu informują też długie wąsy- świadczą one o występowaniu obserwacji skrajnych- znacząco oddalonych od pudełka; <br/>
*'''Rozproszenie'''- im wykres jest dłuższy, tym [[dane]] są bardziej rozsiane, co oznacza, że mogą przyjmować zróżnicowane wartości. O rozproszeniu informują też długie wąsy- świadczą one o występowaniu obserwacji skrajnych- znacząco oddalonych od pudełka; <br/>
*'''Kształt'''- jeżeli wykres wydaje się symetryczny względem kreski z medianą, to można przyjąć założenie, że wykres badanej cechy jest '''symetryczny'''. W przypadku, gdy pudełko nie jest równo podzielone albo/i wąsy mają różną długość mamy do czynienia z '''asymetrią''' (prawo- lub lewostronną, co odczytuje się po odległości Min i Max od Mediany) i wykres cechy jest '''rozkładem asymetrycznym'''; (J. Łuczak 2007, s.258) <br/>
*'''Kształt'''- jeżeli wykres wydaje się symetryczny względem kreski z medianą, to można przyjąć [[założenie]], że wykres badanej cechy jest '''symetryczny'''. W przypadku, gdy pudełko nie jest równo podzielone albo/i wąsy mają różną długość mamy do czynienia z '''asymetrią''' ([[prawo]]- lub lewostronną, co odczytuje się po odległości Min i Max od Mediany) i wykres cechy jest '''rozkładem asymetrycznym'''; (J. Łuczak 2007, s.258) <br/>
==Interpretacja==
==Interpretacja==
Z wykresu odczytujemy następujące własności:
Z wykresu odczytujemy następujące własności:
Linia 95: Linia 95:
==Bibligrafia==
==Bibligrafia==
* Łuczak J. (2007). ''Metody i techniki zarządzania jakością'', Quality Progress, Poznań
* Łuczak J. (2007). ''Metody i techniki zarządzania jakością'', Quality Progress, Poznań
* Malarska A. (2005). ''Statystyczna analiza danych'', SPSS Polska, Kraków  
* Malarska A. (2005). ''Statystyczna [[analiza danych]]'', SPSS Polska, Kraków  
* Nowak-Brzezińska A. (2011). [https://www.researchgate.net/profile/Agnieszka_Nowak-Brzezinska/publication/264848091_Przygotowanie_danych_w_srodowisku_R/links/544a292a0cf2ea6541343e1c.pdf ''Przygotowywanie danych w środowisku R''], Uniwersytet Śląski w Katowicach, Katowice
* Nowak-Brzezińska A. (2011). [https://www.researchgate.net/profile/Agnieszka_Nowak-Brzezinska/publication/264848091_Przygotowanie_danych_w_srodowisku_R/links/544a292a0cf2ea6541343e1c.pdf ''Przygotowywanie danych w środowisku R''], Uniwersytet Śląski w Katowicach, Katowice
* Poniat R. (2014). [http://pdp.wuwr.pl/download.php?id=45da2bd31ebd14be43431ee317b3a3a48927b8d9 ''O wykorzystaniu wykresów pudełkowych do prezentacji danych demograficznych i o pożytku z użycia środowiska R z pakietem ggplot2''], "Przyszłość demograficzna Polski", nr 34
* Poniat R. (2014). [http://pdp.wuwr.pl/download.php?id=45da2bd31ebd14be43431ee317b3a3a48927b8d9 ''O wykorzystaniu wykresów pudełkowych do prezentacji danych demograficznych i o pożytku z użycia środowiska R z pakietem ggplot2''], "Przyszłość demograficzna Polski", nr 34
* Potter K. (red.) (2006). [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.132.66&rep=rep1&type=pdf ''Methods for presenting statistical information: The box plot''], "Visualization of large and unstructured data sets", nr 4
* Potter K. (red.) (2006). [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.132.66&rep=rep1&type=pdf ''Methods for presenting statistical information: The box plot''], "Visualization of large and unstructured data sets", nr 4
* Trzęsiok M. (2014). [https://www.infona.pl/resource/bwmeta1.element.desklight-67e7183b-47b0-4da4-9cab-330d5d54992e/content/partDownload/bef9c9d5-5ef2-3334-9b7a-f85b0c012eb4 ''O jakości danych w kontekście obserwacji oddalonych w wielowymiarowej analizie regresji''], "Studia Ekonomiczne", nr 191
* Trzęsiok M. (2014). [https://www.infona.pl/resource/bwmeta1.element.desklight-67e7183b-47b0-4da4-9cab-330d5d54992e/content/partDownload/bef9c9d5-5ef2-3334-9b7a-f85b0c012eb4 ''O jakości danych w kontekście obserwacji oddalonych w wielowymiarowej analizie regresji''], "Studia Ekonomiczne", nr 191
* Woch J. (2002). ''Statystyka procesów transportowych'', Instytut Transportu Politechniki Śląskiej, Katowice  
* Woch J. (2002). ''[[Statystyka]] procesów transportowych'', Instytut Transportu Politechniki Śląskiej, Katowice  
* Wykłady M.Sobolewskiego
* Wykłady M.Sobolewskiego


[[Kategoria:Statystyka i Ekonometria]]
[[Kategoria:Statystyka i Ekonometria]]
{{a|Wojciech Szpara, Agnieszka Gałka}}
{{a|Wojciech Szpara, Agnieszka Gałka}}

Wersja z 16:46, 22 maj 2020

Wykres pudełkowy
Polecane artykuły



Wykres pudełkowy nazywany często wykresem skrzynkowym, ramkowym lub wykresem "ramka -wąsy" (z języka angielskiego- box plot). Jest jednym z narzędzi statystycznych metod zarządzania jakością. Wykresy pudełkowe opracowywane są w oparciu o wartości statystyk opisowych, dlatego ich zastosowanie ogranicza się do cech liczbowych. Stanowią prostą formę graficznej prezentacji rozkładu cechy statystycznej. Pozwalają na ujęcie na jednym rysunku wszystkich wiadomości, które dotyczą położenia, kształtu a także rozkładu empirycznego badanej cechy. Charakteryzuje je duża przejrzystość i zwięzłość. (M. Trzęsiok 2014, s.107)
Wykres został zaproponowany przez Johna Tukeya w książce "Explanatory Data Analysis", wydanej w 1997 roku. Tukey uważa, że wymyślony przez niego wykres ma duża wartość i pozwala na odkrycie czegoś, czego się nie spodziewaliśmy- "The gratest value of a picture is when it forces us to notice what we never expected to see”.

Opis wykresu

Wykres składa się z prostokąta (pudełka), osi współrzędnych i tak zwanych wąsów, czyli odległości wartości minimalnej i maksymalnej od pudełka. Wykres ma formę minimalistyczną, ponieważ przedstawia tylko 5 informacji i chociaż wydaję się, że jest to niewiele, wykres ramka-wąsy przekazuje nam na bardzo dużo wiadomości. Najczęściej do jego sporządzenia musimy znać dokładne wartości: pierwszego i trzeciego kwartyla, mediany oraz minimum i maksimum. Dzięki tym danym możemy badać poziom rozproszenia danej czy odległości mediany od minimum i maksimum. (J. Łuczak 2007, s.255-258)
Długość prostokąta reprezentuje rozstęp ćwiartkowy IQR, obejmujący 50% środkowych obserwacji. Pudełko jest rozdzielone pionową linią, która wyznacza wartość mediany. Dzieli ona przedział ćwiartkowy na dwa obszary, w których znajduje się 25% obserwacji. Wąsy łączą pudełko z największą i najmniejszą wartością badanej zmiennej odpowiednio z przedziału (Q1-1,5*IQR; Q1) oraz (Q3; Q3+1,5 IQR). W pierwszym przedziale znajduje się 25% obserwacji o wartościach niższych od dolnego kwartyla a w drugim przedziale 25% obserwacji o wartościach wyższych od górnego kwartyla. (A. Malarska 2005, s.26-27))

Typy wykresów pudełkowych

Wyróżnia się następujące typy wykresów pudełkowych:
1. Średnia/błąd standardowy/odchylenie standardowe
2. Mediana/kwartyle/minimum, maksimum
3. Średnia/odchylenie standardowe/minimum maksimum
4. Średnia/przedział ufności/odchylenie standardowe
Należy zaznaczyć, że najczęściej spotykanym typem jest nr 2.

Sporządzanie i charakterystyka wykresu pudełkowego

Aby sporządzić wykres należy:

  • Narysować oś liczbową, na której odmierza się wartości badanej cechy.
  • Umieścić wzdłuż osi pudełko (skrzynkę), którego lewy bok wyznacza wartość kwartyla 1, natomiast prawy bok- wartość kwartyla 3.
  • Uzupełnić wykres dwoma odcinkami, które znajdują się na zewnątrz pudełka (tzw.: wąsy).

Wykres pudełkowy posiada dwa warianty:

  • prosty- bazuje na głównych statystykach;
  • złożony- używany do prezentacji wartości odstających, tzw. outlierów;

Wariant prosty
Do stworzenia prostego wykresu pudełkowego niezbędne jest 5 wartości:

  • Max- wartość maksymalna
  • Q3- kwartyl 3
  • Me- mediana
  • Q1- kwartyl 1
  • Min- wartość minimalna
Rys.1. Wariant prosty


Wąs to kreska, która łączy wartość minimalną (Min) i maksymalną (Max) z końcem pudełka.
Informacje dotyczące prostego wariantu:

  • Długość pudełka równa się rozstępowi ćwiartkowemu
  • Wąsy mogą przybierać różną długość, w zależności od tego, ile wynosi wartość maksymalna i minimalna
  • Mediana nie zawsze leży pośrodku pudełka

Wariant złożony
W tym przypadku do zbudowania wykresu pudełkowego potrzebujemy:

  • Q3- kwartyl 3
  • Me- mediana
  • Q1- kwartyl 1
  • IQR- rozstęp ćwiartkowy, wyliczany następująco:


Wąsy wyznaczane są następująco:


Rys.2. Wariant złożony


W przypadku, gdy jakieś wartości znajdują się poniżej Min lub powyżej Max, obrazuje się je na wykresie jako gwiazdki. Są to wartości, które reprezentują wartości odstające, to znaczy takie, które zdecydowanie odbiegają od reszty.
Informacje dotyczące wariantu złożonego:

  • Długość pudełka równa się rozstępowi ćwiartkowemu
  • Wąsy mają identyczną długość
  • Mediana nie zawsze leży na środku pudełka
  • Wykres ten służy do lokalizowania wartości odstających, które mogą w zasadniczy sposób zaburzać interpretację wyników. (K. Potter 2006, s.98-100)

Analiza wykresu

  • Położenie- położenie obrazuje cały wykres pudełkowy (wartości min i max);
  • Rozproszenie- im wykres jest dłuższy, tym dane są bardziej rozsiane, co oznacza, że mogą przyjmować zróżnicowane wartości. O rozproszeniu informują też długie wąsy- świadczą one o występowaniu obserwacji skrajnych- znacząco oddalonych od pudełka;
  • Kształt- jeżeli wykres wydaje się symetryczny względem kreski z medianą, to można przyjąć założenie, że wykres badanej cechy jest symetryczny. W przypadku, gdy pudełko nie jest równo podzielone albo/i wąsy mają różną długość mamy do czynienia z asymetrią (prawo- lub lewostronną, co odczytuje się po odległości Min i Max od Mediany) i wykres cechy jest rozkładem asymetrycznym; (J. Łuczak 2007, s.258)

Interpretacja

Z wykresu odczytujemy następujące własności:

  • Położenie mediany
  • Położenie kwartyli
  • Wartości kwartyli:
  • Położenie wariantów cechy, które nie odstają od tendencji centralnej
  • Występowanie nietypowych wariantów cechy
  • Pojawienie się ekstremalnych wariantów cechy

Zalety

Wykres pudełkowy w bardzo łatwy sposób pozwala ilustrować nawet duże ilości danych i przejrzyście obrazuje wartości odstające. (J. Łuczak 2007 s.257)

Wady

Wykres pudełkowy nie ma nadaje się do szczegółowej analizy danych, ponieważ prezentuje jedynie sumaryczny rozkład wartości. (J. Łuczak 2007, s.257)

Zastosowanie

  • Zdefiniowanie rozproszenia danej cechy.
  • Ukazuje nam rozkład uporządkowanych wartości cechy.
  • Ułatwia diagnostykę typu skośności rozkładu cechy.
  • Wspomaga analizy, interpretacje danych statystycznych.
  • Z diagramów pudełkowych korzysta się przy porównaniu rozkładów dwóch lub więcej zmiennych.

Bibligrafia

Autor: Wojciech Szpara, Agnieszka Gałka