Wariancja
Wariancja to podstawowa klasyczna miara zróżnicowania. Definiowana jest ona jako średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości. Wariancję zmiennej losowej oznaczamy jako , dana jest ona wzorem:
gdzie:
- - to wartość oczekiwana zmiennej losowej A, gdzie
- - to wartość oczekiwana zmiennej losowej X.
Wariancja to wielkość dodatnia. Jest ona zerem wtedy, i tylko wtedy, gdy (Sobczyk M. 2010, s. 62).
Kiedy dane opisują próbę, to oznaczana jest ona . Aby obliczyć jej wartość dzielimy sumę kwadratów odchyleń od średniej przez n - 1.
Jeżeli dane obejmować mają całą populację, wariancja oznaczana jest przez ( to mała grecka litera sigma, dlatego też wariancja nazywana jest sigmą kwadrat (B. Witkowski 2018, s. 38).
Analiza wariancji
Dla dowolnych zmiennych losowych oraz prawdziwe są zależności:
- a) ,
- b) , dla każdego rzeczywistego,
- c) , dla oraz skończonych.
Estymatory
- Wariancja dla szeregu wyliczającego
- Wariancja dla szeregu rozdzielczego punktowego
- Wariancja dla szeregu rozdzielczego przedziałowego
Właściwości wariancji
- Wariancja wartości zmiennej to różnica pomiędzy średnią arytmetyczną kwadratów wartości zmiennej a kwadratem średniej arytmetycznej tej zmiennej.
- Wariancja stałej jest równa zero.
- Jeśli zbiorowość, którą badamy podzielimy według jakiegoś konkretnego kryterium na k grup, to dla całej zbiorowości wariancja (wariancja ogólna) będzie sumą dwóch składników: wariancji wewtątrzgrupowej (średniej arytmetycznej wewnątrzgrupowych wariancji wartości zmiennej) oraz wariancji międzygrupowej (wariancji średnich grupowych wartości tej zmiennej).
- Wariancja jako suma kwadratów podzielona przez dodatnią liczbę to za każdym razem wielkość mianowana i nieujemna. Jej mianem jest kwadrat jednostki fizycznej, w jakiej badana cecha jest mierzona. Wartość wariancji będzie tym wyższa, im bardziej zróżnicowana jest zbiorowość.
- Jeżeli wariancja jest obliczona na podstawie szeregów rozdzielczych przedziałowych, to jest ona wielkością zawyżoną. Jest to spowodowane faktem, iż do obliczeń wykorzystywane nie są średnie arytmetyczne poszczególnych klas, ale środki przedziałów klasowych (w takim przypadku nie da się obliczyć tych średnich ponieważ rozkład liczebności pomiędzy wartości cechy nie jest znany). Dlatego, że liczba przedziałów klasowych jest na z reguły odwrotnie proporcjonalna do ich rozpiętości, tym większe będzie przeszacowanie wariancji, im mniejsza będzie liczba klas. Aby zmniejszyć popełniony błąd stosuje się poprawkę Shepparda. Jest ona równa , gdzie i oznacza rozpiętość klas. Poprawka Shepparda może być stosowana jedynie w szeregu rozdzielczym o równych rozpiętościach wszystkich klas.
- Wariancja to wielkość kwadratowa (jest ona wyrażona w jednostkach o wyższym stopniu niż poziom wartości cechy badanej). By otrzymać miarę zróżnicowania o liniowej postaci (jej miano jest zgodne z mianem cechy badanej), wyciągamy pierwiastek kwadratowy z wariancji (A. Sobczyk 2002, s. 51). Pierwiastek kwadratowy z wariancji (dodatni) to miara zróżnicowania zwana odchyleniem standardowym.
- Odchylenie standardowe oznaczamy , gdzie :
Analiza wariancji
Znaczenie analizy wariancji w statystyce
Analiza wariancji (ANOVA) jest jedną z najważniejszych technik statystycznych wykorzystywanych do porównywania średnich wartości różnych grup. Polega na rozkładzie wariancji całkowitej na składowe związane z różnymi czynnikami. ANOVA pozwala na oszacowanie wpływu tych czynników na zmienność danych.
Analiza wariancji pozwala na badanie różnic między grupami, co jest istotne w wielu dziedzinach, takich jak medycyna, psychologia czy zarządzanie. Dzięki tej technice można zbadać, czy istnieją istotne różnice pomiędzy grupami i określić, które czynniki mogą mieć wpływ na te różnice.
Zależności dotyczące wariancji zmiennych losowych
Wariancja jest miarą zmienności danych i informuje nas o stopniu, w jakim wartości różnią się od średniej. Im większa wariancja, tym większe są różnice między wartościami. Analiza wariancji pozwala na porównanie wariancji między grupami i określenie, czy różnice są istotne statystycznie.
Zmienne losowe mają różne rozkłady prawdopodobieństwa, co wpływa na wariancję. Na przykład, jeśli dane są rozłożone normalnie, to wariancja jest miarą rozproszenia wartości wokół średniej. Jednak w przypadku innych rozkładów, takich jak rozkład skośny, wariancja może być inna. Analiza wariancji pozwala na ocenę, czy różnice między grupami wynikają z różnych rozkładów zmiennych losowych.
Wpływ podziału zbiorowości na wariancję
Podział zbiorowości na grupy może mieć wpływ na wariancję danych. Jeśli grupy są jednorodne, czyli różnice między nimi są małe, to wariancja całej zbiorowości będzie niska. Natomiast jeśli grupy są zróżnicowane, czyli różnice między nimi są duże, to wariancja całej zbiorowości będzie wysoka. Analiza wariancji pozwala na ocenę, jak podział zbiorowości wpływa na zmienność danych.
Różne grupy mogą mieć różne wariancje, co wpływa na wariancję całej zbiorowości. Jeśli różnice między grupami są duże, to wariancja całej zbiorowości będzie wysoka. Natomiast jeśli różnice między grupami są małe, to wariancja całej zbiorowości będzie niska. Analiza wariancji pozwala na ocenę, jak różne grupy wpływają na zmienność całej zbiorowości.
Zastosowania wariancji
Porównywanie zróżnicowania cech w różnych grupach
Jednym z zastosowań wariancji jest porównywanie zróżnicowania cech w różnych grupach. Przykładem może być porównanie wyników egzaminów z matematyki w dwóch klasach: A i B. Załóżmy, że w klasie A średni wynik wynosi 80%, a w klasie B 60%. Jednakże, aby dokładniej ocenić różnice między klasami, warto również spojrzeć na wariancję wyników w obu grupach. Jeśli wariancja w klasie A jest znacznie niższa niż w klasie B, oznacza to, że wyniki uczniów w klasie A są bardziej zbliżone do siebie niż w klasie B. Wariancja pozwala zatem na porównanie zróżnicowania cech w różnych grupach i może dostarczyć dodatkowych informacji na temat rozkładu danych.
Wariancja pomaga w porównywaniu zróżnicowania cech poprzez dostarczenie miary, która informuje nas o stopniu rozproszenia wartości wokół średniej. Im większa wariancja, tym większa różnica między poszczególnymi wartościami a średnią. Dzięki temu możemy ocenić, czy dane cechy są bardziej jednorodne w jednej grupie niż w drugiej.
Ocena predykcyjności modelu
Wariancja może być również używana do oceny predykcyjności modelu. Przykładowo, jeśli mamy model statystyczny, który przewiduje pewną wartość na podstawie zestawu danych, wariancja predykcji może dostarczyć nam informacji na temat tego, jak dobrze model przewiduje rzeczywistość. Jeśli wariancja predykcji jest niska, oznacza to, że predykcje modelu są zbliżone do rzeczywistych wartości. Natomiast wysoka wariancja predykcji może wskazywać na to, że model nie radzi sobie dobrze z predykcją. Dlatego wariancja może być przydatna w ocenie jakości modelu predykcyjnego.
Przykładem zastosowania wariancji do oceny predykcyjności modelu może być prognozowanie cen akcji na giełdzie. Jeśli mamy model, który przewiduje ceny akcji na podstawie danych historycznych, wariancja predykcji może nam pokazać, jak dobrze model radzi sobie z przewidywaniem rzeczywistych cen. Jeśli wariancja predykcji jest niska, oznacza to, że modele są w stanie dokładnie przewidzieć ceny akcji. Natomiast wysoka wariancja predykcji może wskazywać na to, że model nie jest wystarczająco precyzyjny i dokładny.
Miara rozrzutu danych
Wariancja może być używana jako miara rozrzutu danych. Jest to wskaźnik, który informuje nas, jak bardzo wartości w danym zbiorze danych różnią się od siebie. Im większa wariancja, tym większy rozrzut danych. Dzięki temu możemy ocenić, jak zmienne są rozproszone wokół swojej średniej wartości.
Interpretacja rozrzutu danych na podstawie wariancji polega na porównaniu wartości wariancji między różnymi zbiorami danych. Jeśli wariancja jest niska, oznacza to, że wartości w danym zbiorze są blisko siebie, co wskazuje na mały rozrzut danych. Natomiast wysoka wariancja wskazuje na to, że wartości są bardziej rozproszone, co oznacza większy rozrzut danych.
Zastosowanie w różnych dziedzinach, takich jak finanse, medycyna, produkcja
W finansach wariancja jest często używana do oceny ryzyka inwestycji. Im większa wariancja zwrotów z inwestycji, tym większe ryzyko związane z daną inwestycją. Dlatego inwestorzy korzystają z wariancji do porównywania różnych instrumentów finansowych i oceny ich potencjalnego ryzyka.
W medycynie wariancja może być używana do oceny różnic w wynikach badań klinicznych. Jeśli wariancja wyników w dwóch grupach leczonych różnymi terapiami jest duża, oznacza to, że efekty terapii są różne. Wariancja może pomóc w identyfikacji skuteczności danej terapii i porównaniu jej z innymi metodami leczenia.
W produkcji wariancja może być używana do oceny jakości procesu produkcyjnego. Im mniejsza wariancja wyników produkcji, tym bardziej jednorodne są produkty. Dlatego wariancja może być używana do monitorowania procesów produkcyjnych i identyfikacji potencjalnych problemów, które mogą wpływać na jakość produktów.
Wariancja — artykuły polecane |
Metody statystyczne — Estymator obciążony — Percentyl — Test zgodności chi-kwadrat — Zmienna losowa — Kwartyl — Średnia — Przedział ufności — Współczynnik korelacji rang Spearmana |
Bibliografia
- Fisz W. (1969), Rachunek prawdopodobieństwa i statystyka matematyczna, Wydawnictwa Naukowo-Techniczne, Warszawa
- Kornacki J. (2006), Statystyka dla studentów kierunków technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne, Warszawa
- Krasicki W. (1986), Rachnek prawdopodobieństwa i statystyka matematyczna w zadaniach , Wydawnictwa Naukowo-Techniczne, Warszawa
- Ombach J. (2000), Rachunek prawdopodobieństwa wspomagany komputerowo - MAPLE, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków
- Piontek K. (2018), Modelowanie Finansowych Szeregów Czasowych z Warunkową Wariancją, Akademia Ekonomiczna we Wrocławiu
- Sagan A. (2003), Model Pomiarowy Satysfakcji i Lojalności, Akademia Ekonomiczna w Krakowie, Kraków
- Sobczyk M. (2007), Statystyka, Wydawnictwo Naukowe PWN, Warszawa
- Sobczyk M. (2010), Statystyka opisowa, C.H. Beck, Warszawa
- Witkowski B. (red.) (2018), Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa
Autor: Anna Dziadosz, Paweł Dykas