Analiza regresji: Różnice pomiędzy wersjami
m (cleanup bibliografii i rotten links) |
m (Clean up, replaced: → (7), : → :) |
||
Linia 14: | Linia 14: | ||
}} | }} | ||
'''Analiza regresji (statystyczny model regresyjny) ''' to [[Metody statystyczne|statystyczna metoda]] służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi. | '''Analiza regresji (statystyczny model regresyjny) ''' to [[Metody statystyczne|statystyczna metoda]] służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi. Posługujemy się nią w przypadku badania [[Populacja|populacji]] generalnej ze względu równocześnie na co najmniej dwie mierzalne cechy. Model regresji stosuje się do analitycznego wyjaśnienia związku między '''zmienną objaśnianą''' – zależną, oznaczaną <math>Y</math>, a '''zmienną objaśniającą''', czyli niezależną, oznaczaną <math>X</math>. | ||
Analiza regresji wyjaśnia, jak kształtuje się [[wartość]] zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy [[Korelacja|korelacji]] korelacji, która bada siłę zależności między | Analiza regresji wyjaśnia, jak kształtuje się [[wartość]] zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy [[Korelacja|korelacji]] korelacji, która bada siłę zależności między zmiennymi i jej kierunek, określa '''kształt''' tej zależności [Piłatowska M. 2006, s. 105-113]. Rozkład tej zależności może mieć postać liniową bądź nieliniową. Gdy ustalona między badanymi cechami [[korelacja]] jest dość silna, należy znaleźć funkcję regresji. [[Funkcja]] ta pozwoli przewidzieć wartość jednej cechy przy określonej wartości drugiej cechy. W przypadku występowania więcej niż dwóch zmiennych objaśniających mamy do czynienia z '''analizą regresji wieloraką''' [Greń J. 1984, s. 172-236]. Po przeprowadzeniu obserwacji [[Zmienna losowa|zmiennych losowych]] <math>X</math> i <math>Y</math> w losowej [[Próba|próbie]] badanej populacji należy otrzymane wyniki przedstawić w formie wykresu punktowego, tak zwanego [[Punktowy diagram korelacji |diagramu korelacyjnego]] (rozproszenia). Wartości cech należy usytuować w postaci punktów w układzie współrzędnych. Następnie na wykresie doszukujemy się pewnej krzywej zdolnej najlepiej zobrazować ogólną tendencję zmiany wartości jednej zmiennej pod wpływem zmiany wartości drugiej zmiennej [Woźniak M. 2002, s. 69-100]. Krzywa ta w szczególnym wypadku może przybrać postać prostej. Współzależność między badanymi cechami jest tym większa, im punkty na wykresie są bardziej skupione wokół ogólnej tendencji [Wożniak M. 2002, s. 69-100]. Analiza linii regresji pozwoli nam odpowiedzieć na pytanie o ile średnio wzrośnie wartość jednej zmiennej (<math>Y</math>), gdy wartość drugiej zmiennej (<math>X</math>) wzrośnie o jedną jednostkę. Sytuacja jest odwrotna, gdy mamy do czynienia z ujemnie nachyloną linią regresji. W tym wypadku wartość zmiennej <math>Y</math> spada wraz ze spadkiem wartości zmiennej <math>X</math>. Aby dokładnie opisać tę zależność należy do wykresu dobrać odpowiednią funkcję [Aczel A.D. 2018, s. 591-792]. | ||
<google>t</google> | <google>t</google> | ||
Linia 24: | Linia 24: | ||
== Konstrukcja modelu == | == Konstrukcja modelu == | ||
Funkcja regresji służy do opisu, jak kształtuje się ogólna [[tendencja]] zależności między zmiennymi <math>X</math> i <math>Y</math>, nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie [[model]] statystyczny dzieli [[dane]] na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy ('''[[błąd]] losowy'''), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on [[rozkład normalny]]. [[Średnia]] wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich [[wariancja]] | Funkcja regresji służy do opisu, jak kształtuje się ogólna [[tendencja]] zależności między zmiennymi <math>X</math> i <math>Y</math>, nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie [[model]] statystyczny dzieli [[dane]] na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy ('''[[błąd]] losowy'''), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on [[rozkład normalny]]. [[Średnia]] wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich [[wariancja]] jest wartością stałą. W modelu regresji składniki losowe muszą być od siebie niezależne [Aczel A.D. 2018, s. 591-792]. Po wcześniejszym dobraniu odpowiedniego modelu do opisu danej sytuacji następnym etapem jest oszacowanie parametrów modelu na podstawie otrzymanej [[Próba|próby]] losowej. Następnie przystępujemy do analizy błędów (reszt). Zaobserwowane reszty objaśniają, w jakim stopniu wyniki obserwacji nie zostały wyjaśnione przez model. Reszty modelu powinny charakteryzować się czystą losowością. Gdyby okazało się, że reszty zawierają w sobie składnik nielosowy, systematyczny, należy, jeśli to możliwe, zbudowany model regresji przekonstruować tak, aby wyjaśniał znaleziony w resztach składnik systematyczny lub spróbować zbudować inny model [Aczel A.D. 2018, s. 591-792]. | ||
== Regresja liniowa prosta == | == Regresja liniowa prosta == | ||
Linia 33: | Linia 33: | ||
*<math>Y</math> – [[zmienna]] objaśniana (zależna) | *<math>Y</math> – [[zmienna]] objaśniana (zależna) | ||
*<math>a_0</math> – wyraz wolny, punkt przecięcia linii prostej <math>y=a_0+a_1 x</math> z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu) | *<math>a_0</math> – wyraz wolny, punkt przecięcia linii prostej <math>y=a_0+a_1 x</math> z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu) | ||
*<math>a_1</math>, | *<math>a_1</math>, – współczynnik regresji, nachylenie linii <math>y=a_0+a_1 x</math>, informuje o ile przeciętnie wzrośnie (a>0) lub spadnie (a<0) wartość zmiennej <math>Y</math>, gdy wartość zmiennej <math>X</math> wzrośnie o jednostkę | ||
*<math>X</math>, | *<math>X</math>, – zmienna objaśniająca (niezależna, predyktor) | ||
*<math>\epsilon</math> – składnik losowy modelu (błąd) | *<math>\epsilon</math> – składnik losowy modelu (błąd) | ||
Aby wyznaczyć model regresji liniowej należy obliczyć parametry <math>a</math> i <math>b</math>. W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów <math>a</math> i <math>b</math> tak, aby na podstawie danych z próby <math>n</math> wartości <math>(x_i, y_i)</math> suma kwadratów odchyleń wartości empirycznych <math>y_i</math> od wartości teoretycznych <math>\hat y_i </math> była minimalna [Piłatowska M. 2006, s. 105-113]: | Aby wyznaczyć model regresji liniowej należy obliczyć parametry <math>a</math> i <math>b</math>. W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów <math>a</math> i <math>b</math> tak, aby na podstawie danych z próby <math>n</math> wartości <math>(x_i, y_i)</math> suma kwadratów odchyleń wartości empirycznych <math>y_i</math> od wartości teoretycznych <math>\hat y_i </math> była minimalna [Piłatowska M. 2006, s. 105-113]: | ||
Linia 57: | Linia 57: | ||
== Regresja wieloraka == | == Regresja wieloraka == | ||
Model regresji liniowej zmiennej objaśnianej <math>Y</math> względem zbioru <math>k</math> zmiennych objaśniających <math>X_1, X_2, ..., X_k</math> : | Model regresji liniowej zmiennej objaśnianej <math>Y</math> względem zbioru <math>k</math> zmiennych objaśniających <math>X_1, X_2, ..., X_k</math>: | ||
<math>y=a_0+a_1 x_1+a_2 x_2+...+a_k x_k+\epsilon</math> | <math>y=a_0+a_1 x_1+a_2 x_2+...+a_k x_k+\epsilon</math> | ||
Model regresji wielorakiej (wielowymiarowej) „polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej” [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji <math> R^2 </math>. Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu | Model regresji wielorakiej (wielowymiarowej) „polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej” [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji <math> R^2 </math>. Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu zwiększa wartość współczynnika determinacji [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]. Miarami współzależności między zmienną objaśnianą <math>Y</math> a zmiennymi objaśniającymi <math>X_1, X_2, ..., X_k </math> są [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]: | ||
*współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna – mierzą siłę związku między zmienną <math>X</math>, a pojedynczą zmienną <math>Y</math>, jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających | *współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna – mierzą siłę związku między zmienną <math>X</math>, a pojedynczą zmienną <math>Y</math>, jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających | ||
* [[współczynnik korelacji]] wielorakiej – mierzy współzależność między zmienną <math>Y</math> a zmiennymi <math>X_1, X_2, ..., X_k</math> traktowanymi łącznie | * [[współczynnik korelacji]] wielorakiej – mierzy współzależność między zmienną <math>Y</math> a zmiennymi <math>X_1, X_2, ..., X_k</math> traktowanymi łącznie |
Wersja z 21:33, 1 lis 2023
Analiza regresji |
---|
Polecane artykuły |
Analiza regresji (statystyczny model regresyjny) to statystyczna metoda służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi. Posługujemy się nią w przypadku badania populacji generalnej ze względu równocześnie na co najmniej dwie mierzalne cechy. Model regresji stosuje się do analitycznego wyjaśnienia związku między zmienną objaśnianą – zależną, oznaczaną , a zmienną objaśniającą, czyli niezależną, oznaczaną .
Analiza regresji wyjaśnia, jak kształtuje się wartość zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy korelacji korelacji, która bada siłę zależności między zmiennymi i jej kierunek, określa kształt tej zależności [Piłatowska M. 2006, s. 105-113]. Rozkład tej zależności może mieć postać liniową bądź nieliniową. Gdy ustalona między badanymi cechami korelacja jest dość silna, należy znaleźć funkcję regresji. Funkcja ta pozwoli przewidzieć wartość jednej cechy przy określonej wartości drugiej cechy. W przypadku występowania więcej niż dwóch zmiennych objaśniających mamy do czynienia z analizą regresji wieloraką [Greń J. 1984, s. 172-236]. Po przeprowadzeniu obserwacji zmiennych losowych i w losowej próbie badanej populacji należy otrzymane wyniki przedstawić w formie wykresu punktowego, tak zwanego diagramu korelacyjnego (rozproszenia). Wartości cech należy usytuować w postaci punktów w układzie współrzędnych. Następnie na wykresie doszukujemy się pewnej krzywej zdolnej najlepiej zobrazować ogólną tendencję zmiany wartości jednej zmiennej pod wpływem zmiany wartości drugiej zmiennej [Woźniak M. 2002, s. 69-100]. Krzywa ta w szczególnym wypadku może przybrać postać prostej. Współzależność między badanymi cechami jest tym większa, im punkty na wykresie są bardziej skupione wokół ogólnej tendencji [Wożniak M. 2002, s. 69-100]. Analiza linii regresji pozwoli nam odpowiedzieć na pytanie o ile średnio wzrośnie wartość jednej zmiennej (), gdy wartość drugiej zmiennej () wzrośnie o jedną jednostkę. Sytuacja jest odwrotna, gdy mamy do czynienia z ujemnie nachyloną linią regresji. W tym wypadku wartość zmiennej spada wraz ze spadkiem wartości zmiennej . Aby dokładnie opisać tę zależność należy do wykresu dobrać odpowiednią funkcję [Aczel A.D. 2018, s. 591-792].
TL;DR
Analiza regresji to statystyczna metoda służąca do modelowania związków pomiędzy zmiennymi. Polega ona na wyjaśnieniu związku między zmienną objaśnianą a zmienną objaśniającą. Analiza regresji może opisywać zarówno zależności liniowe, jak i nieliniowe. Konstrukcja modelu regresji polega na dopasowaniu funkcji do danych i oszacowaniu jej parametrów. Regresja liniowa prosta zakłada związek liniowy między zmiennymi. Regresja wieloraka polega na zastosowaniu wielu zmiennych objaśniających. Analiza regresji ma wiele zastosowań w biznesie i ekonomii, ale należy stosować modele spełniające kryteria jakości.
Konstrukcja modelu
Funkcja regresji służy do opisu, jak kształtuje się ogólna tendencja zależności między zmiennymi i , nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie model statystyczny dzieli dane na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy (błąd losowy), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on rozkład normalny. Średnia wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich wariancja jest wartością stałą. W modelu regresji składniki losowe muszą być od siebie niezależne [Aczel A.D. 2018, s. 591-792]. Po wcześniejszym dobraniu odpowiedniego modelu do opisu danej sytuacji następnym etapem jest oszacowanie parametrów modelu na podstawie otrzymanej próby losowej. Następnie przystępujemy do analizy błędów (reszt). Zaobserwowane reszty objaśniają, w jakim stopniu wyniki obserwacji nie zostały wyjaśnione przez model. Reszty modelu powinny charakteryzować się czystą losowością. Gdyby okazało się, że reszty zawierają w sobie składnik nielosowy, systematyczny, należy, jeśli to możliwe, zbudowany model regresji przekonstruować tak, aby wyjaśniał znaleziony w resztach składnik systematyczny lub spróbować zbudować inny model [Aczel A.D. 2018, s. 591-792].
Regresja liniowa prosta
Praktyka zakłada dopasowanie funkcji liniowej do sytuacji, w której punkty na wykresie układają się wzdłuż linii prostej. Zatem związek między i jest związkiem liniowym. W tej sytuacji model regresji przyjmuje następującą postać [Woźniak M. 2002, s. 69-100]: gdzie:
- – zmienna objaśniana (zależna)
- – wyraz wolny, punkt przecięcia linii prostej z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu)
- , – współczynnik regresji, nachylenie linii , informuje o ile przeciętnie wzrośnie (a>0) lub spadnie (a<0) wartość zmiennej , gdy wartość zmiennej wzrośnie o jednostkę
- , – zmienna objaśniająca (niezależna, predyktor)
- – składnik losowy modelu (błąd)
Aby wyznaczyć model regresji liniowej należy obliczyć parametry i . W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów i tak, aby na podstawie danych z próby wartości suma kwadratów odchyleń wartości empirycznych od wartości teoretycznych była minimalna [Piłatowska M. 2006, s. 105-113]: Wartości parametrów i obliczamy ze wzorów [Piłatowska M. 2006, s. 105-113]:
gdzie:
- – wariancja
- – kowariancja
Miary dokładności oszacowanego modelu regresji liniowej
„Stopień rozproszenia punktów empirycznych wokół linii regresji, czyli różnice między wartościami empirycznymi zmiennej objaśnianej a jej wartościami teoretycznymi, nazywane resztami służą do określenia dokładności dopasowania oszacowanego modelu regresji liniowej do danych empirycznych.” [Piłatowska M. 2006, s. 105-113] Miarami określającymi dokładność oszacowanego modelu regresji liniowej są [Piłatowska M. 2006, s. 105-113]:
- wariancja resztowa i odchylenie standardowe reszt
- współczynnik zmienności losowej
- współczynnik determinacji i współczynnik zbieżności
Regresja wieloraka
Model regresji liniowej zmiennej objaśnianej względem zbioru zmiennych objaśniających :
Model regresji wielorakiej (wielowymiarowej) „polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej” [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji . Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu zwiększa wartość współczynnika determinacji [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]. Miarami współzależności między zmienną objaśnianą a zmiennymi objaśniającymi są [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]:
- współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna – mierzą siłę związku między zmienną , a pojedynczą zmienną , jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających
- współczynnik korelacji wielorakiej – mierzy współzależność między zmienną a zmiennymi traktowanymi łącznie
Modele nieliniowe
Niekiedy zależność pomiędzy zmiennymi w analizie regresji ma charakter nieliniowy. Często jednak poprzez odpowiednią transformację model nieliniowy można sprowadzić do postaci liniowej. Taki model nazywa się „ modelem linearyzowanym” (intrinsically linear) [Aczel A. D. 2018, s. 591-792].
Praktyczne wykorzystanie regresji
„Analiza regresji jest jedną z najważniejszych i najszerzej stosowanych technik statystycznych oraz ma wiele zastosowań w biznesie i ekonomii” [Aczel A. D. 2018, s. 591-792]. Jednym z zastosowań modeli regresji jest zrozumienie związku zachodzącego między zmiennymi. Regresja jednak nie musi świadczyć o tym, że jedna zmienna jest przyczyną drugiej [Aczel A. D. 2018, s. 591-792]. Poprawnie skonstruowany model można wykorzystać do prognozowania, sterowania lub wyjaśniania związków (przyczynowo-skutkowego, symptomatycznego) między zmiennymi. Niestety w praktyce można wykorzystać tylko te modele regresji, które spełniają „kryteria jakości modelu regresji”. Do najważniejszych z nich należą [Piłatowska M. 2006, s. 105-113]:
- wysoki stopień dopasowania modelu do danych empirycznych
- istotny statystycznie współczynnik regresji liniowej
- liniowość zależności względem i losowy charakter reszt
Bibliografia
- Aczel A. D. (2018) Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa
- Greń J. (1984) Statystyka matematyczna. Modele i zadania, Państwowe Wydawnictwo Naukowe, Warszawa
- Iwasiewicz A. Paszek Z. (2004) Statystyka z elementami statystycznych metod monitorowania procesów, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
- Piłatowska M.(2006) Repetytorium ze statystyki, Wydawnictwo Naukowe PWN, Warszawa
- Radziszewska-Zielina E. Szewczyk B. (2014) Analiza regresji pomiędzy poziomem relacji partnerskich a ich wpływem na czas, koszt, jakość i bezpieczeństwo realizacji przedsięwzięć budowlanych
- Walesiak M. (1993) Statystyczna analiza wielowymiarowa w badaniach marketingowych
- Wątroba J.(2003) Metody statystyczne stosowane do analizy zadowolenia i lojalności klientów
- Woźniak M.(2002) Statystyka ogólna, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
Autor: Sylwia Jałowiec