Analiza regresji: Różnice pomiędzy wersjami

Z Encyklopedia Zarządzania
m (Infobox update)
 
m (cleanup bibliografii i rotten links)
 
(Nie pokazano 21 wersji utworzonych przez 2 użytkowników)
Linia 1: Linia 1:
{{infobox4
'''Analiza regresji (statystyczny model regresyjny) ''' to [[Metody statystyczne|statystyczna metoda]] służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi. Posługujemy się nią w przypadku badania [[Populacja|populacji]] generalnej ze względu równocześnie na co najmniej dwie mierzalne cechy. Model regresji stosuje się do analitycznego wyjaśnienia związku między '''zmienną objaśnianą''' - zależną, oznaczaną <math>Y</math>, a '''zmienną objaśniającą''', czyli niezależną, oznaczaną <math>X</math>.
|list1=
<ul>
<li>[[Poziom istotności]]</li>
<li>[[Kwartyl]]</li>
<li>[[ANOVA]]</li>
<li>[[Histogram]]</li>
<li>[[Metody statystyczne]]</li>
<li>[[Regresja liniowa]]</li>
<li>[[Estymator nieobciążony]]</li>
<li>[[Analiza przyczynowa]]</li>
<li>[[Skala interwałowa]]</li>
</ul>
}}


Analiza regresji wyjaśnia, jak kształtuje się [[wartość]] zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy [[Korelacja|korelacji]] korelacji, która bada siłę zależności między zmiennymi i jej kierunek, określa '''kształt''' tej zależności [Piłatowska M. 2006, s. 105-113]. Rozkład tej zależności może mieć postać liniową bądź nieliniową. Gdy ustalona między badanymi cechami [[korelacja]] jest dość silna, należy znaleźć funkcję regresji. [[Funkcja]] ta pozwoli przewidzieć wartość jednej cechy przy określonej wartości drugiej cechy. W przypadku występowania więcej niż dwóch zmiennych objaśniających mamy do czynienia z '''analizą regresji wieloraką''' [Greń J. 1984, s. 172-236]. Po przeprowadzeniu obserwacji [[Zmienna losowa|zmiennych losowych]] <math>X</math> i <math>Y</math> w losowej [[Próba|próbie]] badanej populacji należy otrzymane wyniki przedstawić w formie wykresu punktowego, tak zwanego [[Punktowy diagram korelacji |diagramu korelacyjnego]] (rozproszenia). Wartości cech należy usytuować w postaci punktów w układzie współrzędnych. Następnie na wykresie doszukujemy się pewnej krzywej zdolnej najlepiej zobrazować ogólną tendencję zmiany wartości jednej zmiennej pod wpływem zmiany wartości drugiej zmiennej [Woźniak M. 2002, s. 69-100]. Krzywa ta w szczególnym wypadku może przybrać postać prostej. Współzależność między badanymi cechami jest tym większa, im punkty na wykresie są bardziej skupione wokół ogólnej tendencji [Wożniak M. 2002, s. 69-100]. Analiza linii regresji pozwoli nam odpowiedzieć na pytanie o ile średnio wzrośnie wartość jednej zmiennej (<math>Y</math>), gdy wartość drugiej zmiennej (<math>X</math>) wzrośnie o jedną jednostkę. Sytuacja jest odwrotna, gdy mamy do czynienia z ujemnie nachyloną linią regresji. W tym wypadku wartość zmiennej <math>Y</math> spada wraz ze spadkiem wartości zmiennej <math>X</math>. Aby dokładnie opisać tę zależność należy do wykresu dobrać odpowiednią funkcję [Aczel A.D. 2018, s. 591-792].


==TL;DR==
Analiza regresji to statystyczna metoda służąca do modelowania związków pomiędzy zmiennymi. Polega ona na wyjaśnieniu związku między zmienną objaśnianą a zmienną objaśniającą. Analiza regresji może opisywać zarówno zależności liniowe, jak i nieliniowe. Konstrukcja modelu regresji polega na dopasowaniu funkcji do danych i oszacowaniu jej parametrów. Regresja liniowa prosta zakłada związek liniowy między zmiennymi. Regresja wieloraka polega na zastosowaniu wielu zmiennych objaśniających. Analiza regresji ma wiele zastosowań w biznesie i ekonomii, ale należy stosować modele spełniające kryteria jakości.


'''Analiza regresji (statystyczny model regresyjny) ''' to [[Metody statystyczne|statystyczna metoda]] służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi.  Posługujemy się nią w przypadku badania [[Populacja|populacji]] generalnej ze względu równocześnie na co najmniej dwie mierzalne cechy. Model regresji stosuje się do analitycznego wyjaśnienia związku między '''zmienną objaśnianą''' – zależną, oznaczaną <math>Y</math>, a '''zmienną objaśniającą''', czyli niezależną, oznaczaną <math>X</math>.
<google>n</google>
 
 
Analiza regresji wyjaśnia, jak kształtuje się [[wartość]] zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy [[Korelacja|korelacji]] korelacji, która bada siłę zależności między  zmiennymi i jej kierunek, określa '''kształt''' tej zależności [Piłatowska M. 2006, s. 105-113]. Rozkład tej zależności może mieć postać liniową bądź nieliniową. Gdy ustalona między badanymi cechami [[korelacja]] jest dość silna, należy znaleźć funkcję regresji. [[Funkcja]] ta pozwoli przewidzieć wartość jednej cechy przy określonej wartości drugiej cechy. W przypadku występowania więcej niż dwóch zmiennych objaśniających mamy do czynienia z '''analizą regresji wieloraką''' [Greń J. 1984, s. 172-236]. Po przeprowadzeniu obserwacji [[Zmienna losowa|zmiennych losowych]] <math>X</math> i <math>Y</math> w losowej [[Próba|próbie]] badanej populacji należy otrzymane wyniki przedstawić w formie wykresu punktowego, tak zwanego [[Punktowy diagram korelacji |diagramu korelacyjnego]] (rozproszenia). Wartości cech należy usytuować w postaci punktów w układzie współrzędnych. Następnie na wykresie doszukujemy się pewnej krzywej zdolnej najlepiej zobrazować ogólną tendencję zmiany wartości jednej zmiennej pod wpływem zmiany wartości drugiej zmiennej [Woźniak M. 2002, s. 69-100]. Krzywa ta w szczególnym wypadku może przybrać postać prostej. Współzależność między badanymi cechami jest tym większa, im punkty na wykresie są bardziej skupione wokół ogólnej tendencji [Wożniak M. 2002, s. 69-100]. Analiza linii regresji pozwoli nam odpowiedzieć na pytanie o ile średnio wzrośnie wartość jednej zmiennej (<math>Y</math>), gdy wartość drugiej zmiennej (<math>X</math>) wzrośnie o jedną jednostkę. Sytuacja jest odwrotna, gdy mamy do czynienia z ujemnie nachyloną linią regresji. W tym wypadku wartość zmiennej <math>Y</math>  spada wraz ze spadkiem wartości zmiennej <math>X</math>. Aby dokładnie opisać tę zależność należy do wykresu dobrać odpowiednią funkcję [Aczel A.D. 2018, s. 591-792].
<google>t</google>
 
== Konstrukcja modelu ==
 
 
Funkcja regresji służy do opisu, jak kształtuje się ogólna [[tendencja]] zależności między zmiennymi <math>X</math> i <math>Y</math>, nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie [[model]] statystyczny dzieli [[dane]] na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy ('''[[błąd]] losowy'''), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on [[rozkład normalny]]. [[Średnia]] wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich [[wariancja]]  jest wartością stałą. W modelu regresji składniki losowe muszą być od siebie niezależne [Aczel A.D. 2018, s. 591-792]. Po wcześniejszym dobraniu odpowiedniego modelu do opisu danej sytuacji następnym etapem jest oszacowanie parametrów modelu na podstawie otrzymanej [[Próba|próby]] losowej. Następnie przystępujemy do analizy błędów (reszt). Zaobserwowane reszty objaśniają, w jakim stopniu wyniki obserwacji nie zostały wyjaśnione przez model. Reszty modelu powinny charakteryzować się czystą losowością. Gdyby okazało się, że reszty zawierają w sobie składnik nielosowy, systematyczny, należy, jeśli to możliwe, zbudowany model regresji przekonstruować tak, aby wyjaśniał znaleziony w resztach składnik systematyczny lub spróbować zbudować inny model [Aczel A.D. 2018, s. 591-792].
 
 
== Regresja liniowa prosta ==


==Konstrukcja modelu==
Funkcja regresji służy do opisu, jak kształtuje się ogólna [[tendencja]] zależności między zmiennymi <math>X</math> i <math>Y</math>, nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie [[model]] statystyczny dzieli [[dane]] na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy ('''[[błąd]] losowy'''), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on [[rozkład normalny]]. [[Średnia]] wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich [[wariancja]] jest wartością stałą. W modelu regresji składniki losowe muszą być od siebie niezależne [Aczel A.D. 2018, s. 591-792]. Po wcześniejszym dobraniu odpowiedniego modelu do opisu danej sytuacji następnym etapem jest oszacowanie parametrów modelu na podstawie otrzymanej [[Próba|próby]] losowej. Następnie przystępujemy do analizy błędów (reszt). Zaobserwowane reszty objaśniają, w jakim stopniu wyniki obserwacji nie zostały wyjaśnione przez model. Reszty modelu powinny charakteryzować się czystą losowością. Gdyby okazało się, że reszty zawierają w sobie składnik nielosowy, systematyczny, należy, jeśli to możliwe, zbudowany model regresji przekonstruować tak, aby wyjaśniał znaleziony w resztach składnik systematyczny lub spróbować zbudować inny model [Aczel A.D. 2018, s. 591-792].


==Regresja liniowa prosta==
Praktyka zakłada dopasowanie funkcji liniowej do sytuacji, w której punkty na wykresie układają się wzdłuż linii prostej. Zatem związek między <math>X</math> i <math>Y</math> jest związkiem liniowym. W tej sytuacji model regresji przyjmuje następującą postać [Woźniak M. 2002, s. 69-100]:
Praktyka zakłada dopasowanie funkcji liniowej do sytuacji, w której punkty na wykresie układają się wzdłuż linii prostej. Zatem związek między <math>X</math> i <math>Y</math> jest związkiem liniowym. W tej sytuacji model regresji przyjmuje następującą postać [Woźniak M. 2002, s. 69-100]:
<math> y = a_0+a_1 x+ &epsilon; </math>
<math> y = a_0+a_1 x+ \epsilon </math>
gdzie:
gdzie:
*<math>Y</math> [[zmienna]] objaśniana (zależna)
* <math>Y</math> - [[zmienna]] objaśniana (zależna)
*<math>a_0</math> wyraz wolny, punkt przecięcia linii prostej <math>y=a_0+a_1 x</math> z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu)
* <math>a_0</math> - wyraz wolny, punkt przecięcia linii prostej <math>y=a_0+a_1 x</math> z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu)
*<math>a_1</math>, współczynnik regresji, nachylenie linii <math>y=a_0+a_1 x</math>, informuje o ile przeciętnie wzrośnie (a>0) lub spadnie (a<0) wartość zmiennej <math>Y</math>, gdy wartość zmiennej <math>X</math> wzrośnie o jednostkę
* <math>a_1</math>, - współczynnik regresji, nachylenie linii <math>y=a_0+a_1 x</math>, informuje o ile przeciętnie wzrośnie (a>0) lub spadnie (a<0) wartość zmiennej <math>Y</math>, gdy wartość zmiennej <math>X</math> wzrośnie o jednostkę
*<math>X</math>, zmienna objaśniająca (niezależna, predyktor)
* <math>X</math>, - zmienna objaśniająca (niezależna, predyktor)
*<math>&epsilon;</math> składnik losowy modelu (błąd)
* <math>\epsilon</math> - składnik losowy modelu (błąd)
Aby wyznaczyć model regresji liniowej należy obliczyć parametry <math>a</math> i <math>b</math>. W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów <math>a</math> i <math>b</math> tak, aby na podstawie danych z próby <math>n</math> wartości <math>(x_i, y_i)</math> suma kwadratów odchyleń wartości empirycznych <math>y_i</math> od wartości teoretycznych <math>\hat y_i </math> była minimalna [Piłatowska M. 2006, s. 105-113]:
Aby wyznaczyć model regresji liniowej należy obliczyć parametry <math>a</math> i <math>b</math>. W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów <math>a</math> i <math>b</math> tak, aby na podstawie danych z próby <math>n</math> wartości <math>(x_i, y_i)</math> suma kwadratów odchyleń wartości empirycznych <math>y_i</math> od wartości teoretycznych <math>\hat y_i </math> była minimalna [Piłatowska M. 2006, s. 105-113]:
<math> S = \sum_{i=1}^n (y_i - \hat y_i)^2 = \sum_{i=1}^n (y_i a_1 x_i a_0)^2 = minimum </math>
 
<math> S = \sum_{i=1}^n (y_i - \hat y_i)^2 = \sum_{i=1}^n (y_i - a_1 x_i - a_0)^2 = minimum </math>
 
Wartości parametrów <math>a</math> i <math>b</math> obliczamy ze wzorów [Piłatowska M. 2006, s. 105-113]:
Wartości parametrów <math>a</math> i <math>b</math> obliczamy ze wzorów [Piłatowska M. 2006, s. 105-113]:


<math>a_0=\ \bar y a_1 \ \bar x</math>
<math>a_0=\ \bar y - a_1 \ \bar x</math>
<math> a_1= \frac{= \sum_{i=1}^n (x_i - \ \bar x) (y_i - \ \bar y)}{ \sum_{i=1}^n (x_i - \ \bar x )^2} = \frac{cov (x, y)}{S^2 (x)} </math>
<math> a_1= \frac{\sum_{i=1}^n (x_i - \ \bar x) (y_i - \ \bar y)}{ \sum_{i=1}^n (x_i - \ \bar x )^2} = \frac{cov (x, y)}{S^2 (x)} </math>


gdzie:
gdzie:
*<math>S^2 (x)</math> wariancja
* <math>S^2 (x)</math> - wariancja
*<math>cov (x, y)</math>[[kowariancja]]  
* <math>cov (x, y)</math>- [[kowariancja]]
 
 
 
== Miary dokładności oszacowanego modelu regresji liniowej ==


 
==Miary dokładności oszacowanego modelu regresji liniowej==
„Stopień rozproszenia punktów empirycznych wokół linii regresji, czyli różnice między wartościami empirycznymi zmiennej objaśnianej a jej wartościami teoretycznymi, nazywane resztami <math> (u_i = y_i - \hat y_i) </math> służą do określenia dokładności dopasowania oszacowanego modelu regresji liniowej do danych empirycznych.[Piłatowska M. 2006, s. 105-113]
"Stopień rozproszenia punktów empirycznych wokół linii regresji, czyli różnice między wartościami empirycznymi zmiennej objaśnianej a jej wartościami teoretycznymi, nazywane resztami <math> (u_i = y_i - \hat y_i) </math> służą do określenia dokładności dopasowania oszacowanego modelu regresji liniowej do danych empirycznych". [Piłatowska M. 2006, s. 105-113]
Miarami określającymi [[dokładność]] oszacowanego modelu regresji liniowej są [Piłatowska M. 2006, s. 105-113]:
Miarami określającymi [[dokładność]] oszacowanego modelu regresji liniowej są [Piłatowska M. 2006, s. 105-113]:
*[[Wariancja składnika resztowego|wariancja resztowa]] <math>S^2(u)</math> i [[odchylenie standardowe]] reszt <math>S(u)</math>
* [[Wariancja składnika resztowego|wariancja resztowa]] <math>S^2(u)</math> i [[odchylenie standardowe]] reszt <math>S(u)</math>
*[[współczynnik zmienności]] losowej <math>V_u</math>
* [[współczynnik zmienności]] losowej <math>V_u</math>
*[[współczynnik determinacji]] <math>R^2</math> i [[współczynnik zbieżności]] <math>\varphi^2</math>
* [[współczynnik determinacji]] <math>R^2</math> i [[współczynnik zbieżności]] <math>\varphi^2</math>


==Regresja wieloraka==
Model regresji liniowej zmiennej objaśnianej <math>Y</math> względem zbioru <math>k</math> zmiennych objaśniających <math>X_1, X_2, ..., X_k</math>:
<math>y=a_0+a_1 x_1+a_2 x_2+...+a_k x_k+\epsilon</math>


== Regresja wieloraka ==
Model regresji wielorakiej (wielowymiarowej) "polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej" [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji <math> R^2 </math>. Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu zwiększa wartość współczynnika determinacji [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]. Miarami współzależności między zmienną objaśnianą <math>Y</math> a zmiennymi objaśniającymi <math>X_1, X_2, ..., X_k </math> są [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]:
* współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna - mierzą siłę związku między zmienną <math>X</math>, a pojedynczą zmienną <math>Y</math>, jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających
* [[współczynnik korelacji]] wielorakiej - mierzy współzależność między zmienną <math>Y</math> a zmiennymi <math>X_1, X_2, ..., X_k</math> traktowanymi łącznie


==Modele nieliniowe==
Niekiedy zależność pomiędzy zmiennymi w analizie regresji ma charakter nieliniowy. Często jednak poprzez odpowiednią transformację model nieliniowy można sprowadzić do postaci liniowej. Taki model nazywa się " modelem linearyzowanym" (''intrinsically linear'') [Aczel A. D. 2018, s. 591-792].


Model regresji liniowej zmiennej objaśnianej <math>Y</math> względem zbioru <math>k</math> zmiennych objaśniających <math>X_1, X_2, …, X_k</math> :
==Praktyczne wykorzystanie regresji==
<math>y=a_0+a_1 x_1+a_2 x_2+…+a_k x_k+&epsilon;</math>
"Analiza regresji jest jedną z najważniejszych i najszerzej stosowanych technik statystycznych oraz ma wiele zastosowań w biznesie i ekonomii" [Aczel A. D. 2018, s. 591-792]. Jednym z zastosowań modeli regresji jest zrozumienie związku zachodzącego między zmiennymi. Regresja jednak nie musi świadczyć o tym, że jedna zmienna jest przyczyną drugiej [Aczel A. D. 2018, s. 591-792]. Poprawnie skonstruowany model można wykorzystać do prognozowania, sterowania lub wyjaśniania związków (przyczynowo-skutkowego, symptomatycznego) między zmiennymi. Niestety w praktyce można wykorzystać tylko te [[modele]] regresji, które spełniają "kryteria jakości modelu regresji". Do najważniejszych z nich należą [Piłatowska M. 2006, s. 105-113]:
* wysoki stopień dopasowania modelu do danych empirycznych
* istotny statystycznie współczynnik regresji liniowej
* liniowość zależności <math>Y</math> względem <math>X</math> i losowy charakter reszt


Model regresji wielorakiej (wielowymiarowej) „polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej” [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji <math> R^2 </math>. Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu  zwiększa wartość współczynnika determinacji [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]. Miarami współzależności między zmienną objaśnianą <math>Y</math> a zmiennymi objaśniającymi <math>X_1, X_2, …, X_k </math> są [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]:
{{infobox5|list1={{i5link|a=[[Poziom istotności]]}} &mdash; {{i5link|a=[[Kwartyl]]}} &mdash; {{i5link|a=[[ANOVA]]}} &mdash; {{i5link|a=[[Histogram]]}} &mdash; {{i5link|a=[[Metody statystyczne]]}} &mdash; {{i5link|a=[[Regresja liniowa]]}} &mdash; {{i5link|a=[[Estymator nieobciążony]]}} &mdash; {{i5link|a=[[Analiza przyczynowa]]}} &mdash; {{i5link|a=[[Skala interwałowa]]}} }}
*współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna – mierzą siłę związku między zmienną <math>X</math>, a pojedynczą zmienną <math>Y</math>, jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających
* [[współczynnik korelacji]] wielorakiej – mierzy współzależność między zmienną <math>Y</math> a zmiennymi <math>X_1, X_2, …, X_k</math> traktowanymi łącznie


== Modele nieliniowe ==
==Bibliografia==
<noautolinks>
* Aczel A. (2018), ''Statystyka w zarządzaniu'', Wydawnictwo Naukowe PWN, Warszawa
* Greń J. (1984), ''Statystyka matematyczna. Modele i zadania'', PWN, Warszawa
* Iwasiewicz A., Paszek Z. (2004), ''Statystyka z elementami statystycznych metod monitorowania procesów'', Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
* Piłatowska M. (2006), ''Repetytorium ze statystyki'', Wydawnictwo Naukowe PWN, Warszawa
* Radziszewska-Zielina E., Szewczyk B. (2014), ''Analiza regresji pomiędzy poziomem relacji partnerskich a ich wpływem na czas, koszt, jakość i bezpieczeństwo realizacji przedsięwzięć budowlanych'',
* Walesiak M. (1993), ''Statystyczna analiza wielowymiarowa w badaniach marketingowych'', Prace Naukowe Akademii Ekonomicznej we Wrocławiu, nr 654
* Wątroba J. (2003), ''[https://media.statsoft.pl/_old_dnn/downloads/metostat.pdf Metody statystyczne stosowane do analizy zadowolenia i lojalności klientów]'', StatSoft Polska
* Woźniak M. (2002), ''Statystyka ogólna'', Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
</noautolinks>


{{a|Sylwia Jałowiec}}
[[Kategoria:Ekonometria]]


Niekiedy zależność pomiędzy zmiennymi w analizie regresji ma charakter nieliniowy. Często jednak poprzez odpowiednią transformację model nieliniowy można sprowadzić do postaci liniowej. Taki model nazywa się „ modelem linearyzowanym” (''intrinsically linear'') [Aczel A. D. 2018, s. 591-792].
{{#metamaster:description|Analiza regresji - metoda statystyczna modelująca związki między zmiennymi. Poznaj wpływ zmiennej objaśniającej na wartość zmiennej objaśnianej.}}
 
 
== Praktyczne wykorzystanie regresji ==
 
 
„Analiza regresji jest jedną z najważniejszych i najszerzej stosowanych technik statystycznych oraz ma wiele zastosowań w biznesie i ekonomii” [Aczel A. D. 2018, s. 591-792]. Jednym z zastosowań modeli regresji jest zrozumienie związku zachodzącego między zmiennymi. Regresja jednak nie musi świadczyć o tym, że jedna zmienna jest przyczyną drugiej [Aczel A. D. 2018, s. 591-792]. Poprawnie skonstruowany model można wykorzystać do prognozowania, sterowania lub wyjaśniania związków (przyczynowo-skutkowego, symptomatycznego) między zmiennymi. Niestety w praktyce można wykorzystać tylko te [[modele]] regresji, które spełniają „kryteria jakości modelu regresji”. Do najważniejszych z nich należą [Piłatowska M. 2006, s. 105-113]:
*wysoki stopień dopasowania modelu do danych empirycznych
*istotny statystycznie współczynnik regresji liniowej
*liniowość zależności <math>Y</math> względem <math>X</math> i losowy charakter reszt
 
 
== Bibliografia ==
 
* Aczel A. D. (2018) ''[[Statystyka]] w zarządzaniu'', Wydawnictwo Naukowe PWN, Warszawa
* Greń J. (1984) ''[[Statystyka matematyczna]]. Modele i zadania'', Państwowe Wydawnictwo Naukowe, Warszawa
* Iwasiewicz A. Paszek Z. (2004) ''Statystyka z elementami statystycznych metod monitorowania procesów'', Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
* Piłatowska M.(2006) ''Repetytorium ze statystyki'', Wydawnictwo Naukowe PWN, Warszawa
* Radziszewska-Zielina E. Szewczyk B. (2014) [https://www.czasopismologistyka.pl/artykuly-naukowe/send/322-czesc-ii/6010-artykul ''Analiza regresji pomiędzy poziomem relacji partnerskich a ich wpływem na czas, koszt, jakość i bezpieczeństwo realizacji przedsięwzięć budowlanych'']
*Walesiak M. (1993) [https://www.researchgate.net/profile/Marek_Walesiak/publication/309418325_Statystyczna_analiza_wielowymiarowa_w_badaniach_marketingowych/links/58a6e04192851cf0e3b934f1/Statystyczna-analiza-wielowymiarowa-w-badaniach-marketingowych.pdf ''Statystyczna analiza wielowymiarowa w badaniach marketingowych'']
* Wątroba J.(2003) [http://media.statsoft.pl/_old_dnn/downloads/metostat.pdf ''Metody statystyczne stosowane do analizy zadowolenia i lojalności klientów'']
* Woźniak M.(2002) ''Statystyka ogólna'', Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
{{a|Sylwia Jałowiec}}
[[Kategoria:Statystyka i Ekonometria]]

Aktualna wersja na dzień 00:45, 11 gru 2023

Analiza regresji (statystyczny model regresyjny) to statystyczna metoda służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi. Posługujemy się nią w przypadku badania populacji generalnej ze względu równocześnie na co najmniej dwie mierzalne cechy. Model regresji stosuje się do analitycznego wyjaśnienia związku między zmienną objaśnianą - zależną, oznaczaną , a zmienną objaśniającą, czyli niezależną, oznaczaną .

Analiza regresji wyjaśnia, jak kształtuje się wartość zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy korelacji korelacji, która bada siłę zależności między zmiennymi i jej kierunek, określa kształt tej zależności [Piłatowska M. 2006, s. 105-113]. Rozkład tej zależności może mieć postać liniową bądź nieliniową. Gdy ustalona między badanymi cechami korelacja jest dość silna, należy znaleźć funkcję regresji. Funkcja ta pozwoli przewidzieć wartość jednej cechy przy określonej wartości drugiej cechy. W przypadku występowania więcej niż dwóch zmiennych objaśniających mamy do czynienia z analizą regresji wieloraką [Greń J. 1984, s. 172-236]. Po przeprowadzeniu obserwacji zmiennych losowych i w losowej próbie badanej populacji należy otrzymane wyniki przedstawić w formie wykresu punktowego, tak zwanego diagramu korelacyjnego (rozproszenia). Wartości cech należy usytuować w postaci punktów w układzie współrzędnych. Następnie na wykresie doszukujemy się pewnej krzywej zdolnej najlepiej zobrazować ogólną tendencję zmiany wartości jednej zmiennej pod wpływem zmiany wartości drugiej zmiennej [Woźniak M. 2002, s. 69-100]. Krzywa ta w szczególnym wypadku może przybrać postać prostej. Współzależność między badanymi cechami jest tym większa, im punkty na wykresie są bardziej skupione wokół ogólnej tendencji [Wożniak M. 2002, s. 69-100]. Analiza linii regresji pozwoli nam odpowiedzieć na pytanie o ile średnio wzrośnie wartość jednej zmiennej (), gdy wartość drugiej zmiennej () wzrośnie o jedną jednostkę. Sytuacja jest odwrotna, gdy mamy do czynienia z ujemnie nachyloną linią regresji. W tym wypadku wartość zmiennej spada wraz ze spadkiem wartości zmiennej . Aby dokładnie opisać tę zależność należy do wykresu dobrać odpowiednią funkcję [Aczel A.D. 2018, s. 591-792].

TL;DR

Analiza regresji to statystyczna metoda służąca do modelowania związków pomiędzy zmiennymi. Polega ona na wyjaśnieniu związku między zmienną objaśnianą a zmienną objaśniającą. Analiza regresji może opisywać zarówno zależności liniowe, jak i nieliniowe. Konstrukcja modelu regresji polega na dopasowaniu funkcji do danych i oszacowaniu jej parametrów. Regresja liniowa prosta zakłada związek liniowy między zmiennymi. Regresja wieloraka polega na zastosowaniu wielu zmiennych objaśniających. Analiza regresji ma wiele zastosowań w biznesie i ekonomii, ale należy stosować modele spełniające kryteria jakości.

Konstrukcja modelu

Funkcja regresji służy do opisu, jak kształtuje się ogólna tendencja zależności między zmiennymi i , nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie model statystyczny dzieli dane na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy (błąd losowy), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on rozkład normalny. Średnia wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich wariancja jest wartością stałą. W modelu regresji składniki losowe muszą być od siebie niezależne [Aczel A.D. 2018, s. 591-792]. Po wcześniejszym dobraniu odpowiedniego modelu do opisu danej sytuacji następnym etapem jest oszacowanie parametrów modelu na podstawie otrzymanej próby losowej. Następnie przystępujemy do analizy błędów (reszt). Zaobserwowane reszty objaśniają, w jakim stopniu wyniki obserwacji nie zostały wyjaśnione przez model. Reszty modelu powinny charakteryzować się czystą losowością. Gdyby okazało się, że reszty zawierają w sobie składnik nielosowy, systematyczny, należy, jeśli to możliwe, zbudowany model regresji przekonstruować tak, aby wyjaśniał znaleziony w resztach składnik systematyczny lub spróbować zbudować inny model [Aczel A.D. 2018, s. 591-792].

Regresja liniowa prosta

Praktyka zakłada dopasowanie funkcji liniowej do sytuacji, w której punkty na wykresie układają się wzdłuż linii prostej. Zatem związek między i jest związkiem liniowym. W tej sytuacji model regresji przyjmuje następującą postać [Woźniak M. 2002, s. 69-100]: gdzie:

  • - zmienna objaśniana (zależna)
  • - wyraz wolny, punkt przecięcia linii prostej z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu)
  • , - współczynnik regresji, nachylenie linii , informuje o ile przeciętnie wzrośnie (a>0) lub spadnie (a<0) wartość zmiennej , gdy wartość zmiennej wzrośnie o jednostkę
  • , - zmienna objaśniająca (niezależna, predyktor)
  • - składnik losowy modelu (błąd)

Aby wyznaczyć model regresji liniowej należy obliczyć parametry i . W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów i tak, aby na podstawie danych z próby wartości suma kwadratów odchyleń wartości empirycznych od wartości teoretycznych była minimalna [Piłatowska M. 2006, s. 105-113]:

Wartości parametrów i obliczamy ze wzorów [Piłatowska M. 2006, s. 105-113]:

gdzie:

  • - wariancja
  • - kowariancja

Miary dokładności oszacowanego modelu regresji liniowej

"Stopień rozproszenia punktów empirycznych wokół linii regresji, czyli różnice między wartościami empirycznymi zmiennej objaśnianej a jej wartościami teoretycznymi, nazywane resztami służą do określenia dokładności dopasowania oszacowanego modelu regresji liniowej do danych empirycznych". [Piłatowska M. 2006, s. 105-113] Miarami określającymi dokładność oszacowanego modelu regresji liniowej są [Piłatowska M. 2006, s. 105-113]:

Regresja wieloraka

Model regresji liniowej zmiennej objaśnianej względem zbioru zmiennych objaśniających :

Model regresji wielorakiej (wielowymiarowej) "polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej" [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji . Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu zwiększa wartość współczynnika determinacji [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]. Miarami współzależności między zmienną objaśnianą a zmiennymi objaśniającymi są [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]:

  • współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna - mierzą siłę związku między zmienną , a pojedynczą zmienną , jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających
  • współczynnik korelacji wielorakiej - mierzy współzależność między zmienną a zmiennymi traktowanymi łącznie

Modele nieliniowe

Niekiedy zależność pomiędzy zmiennymi w analizie regresji ma charakter nieliniowy. Często jednak poprzez odpowiednią transformację model nieliniowy można sprowadzić do postaci liniowej. Taki model nazywa się " modelem linearyzowanym" (intrinsically linear) [Aczel A. D. 2018, s. 591-792].

Praktyczne wykorzystanie regresji

"Analiza regresji jest jedną z najważniejszych i najszerzej stosowanych technik statystycznych oraz ma wiele zastosowań w biznesie i ekonomii" [Aczel A. D. 2018, s. 591-792]. Jednym z zastosowań modeli regresji jest zrozumienie związku zachodzącego między zmiennymi. Regresja jednak nie musi świadczyć o tym, że jedna zmienna jest przyczyną drugiej [Aczel A. D. 2018, s. 591-792]. Poprawnie skonstruowany model można wykorzystać do prognozowania, sterowania lub wyjaśniania związków (przyczynowo-skutkowego, symptomatycznego) między zmiennymi. Niestety w praktyce można wykorzystać tylko te modele regresji, które spełniają "kryteria jakości modelu regresji". Do najważniejszych z nich należą [Piłatowska M. 2006, s. 105-113]:

  • wysoki stopień dopasowania modelu do danych empirycznych
  • istotny statystycznie współczynnik regresji liniowej
  • liniowość zależności względem i losowy charakter reszt


Analiza regresjiartykuły polecane
Poziom istotnościKwartylANOVAHistogramMetody statystyczneRegresja liniowaEstymator nieobciążonyAnaliza przyczynowaSkala interwałowa

Bibliografia

  • Aczel A. (2018), Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa
  • Greń J. (1984), Statystyka matematyczna. Modele i zadania, PWN, Warszawa
  • Iwasiewicz A., Paszek Z. (2004), Statystyka z elementami statystycznych metod monitorowania procesów, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
  • Piłatowska M. (2006), Repetytorium ze statystyki, Wydawnictwo Naukowe PWN, Warszawa
  • Radziszewska-Zielina E., Szewczyk B. (2014), Analiza regresji pomiędzy poziomem relacji partnerskich a ich wpływem na czas, koszt, jakość i bezpieczeństwo realizacji przedsięwzięć budowlanych,
  • Walesiak M. (1993), Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe Akademii Ekonomicznej we Wrocławiu, nr 654
  • Wątroba J. (2003), Metody statystyczne stosowane do analizy zadowolenia i lojalności klientów, StatSoft Polska
  • Woźniak M. (2002), Statystyka ogólna, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków


Autor: Sylwia Jałowiec