Analiza regresji

Analiza regresji
Polecane artykuły


Analiza regresji (statystyczny model regresyjny) to statystyczna metoda służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi. Posługujemy się nią w przypadku badania populacji generalnej ze względu równocześnie na co najmniej dwie mierzalne cechy. Model regresji stosuje się do analitycznego wyjaśnienia związku między zmienną objaśnianą – zależną, oznaczaną \(Y\), a zmienną objaśniającą, czyli niezależną, oznaczaną \(X\).


Analiza regresji wyjaśnia, jak kształtuje się wartość zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy korelacji korelacji, która bada siłę zależności między zmiennymi i jej kierunek, określa kształt tej zależności [Piłatowska M. 2006, s. 105-113]. Rozkład tej zależności może mieć postać liniową bądź nieliniową. Gdy ustalona między badanymi cechami korelacja jest dość silna, należy znaleźć funkcję regresji. Funkcja ta pozwoli przewidzieć wartość jednej cechy przy określonej wartości drugiej cechy. W przypadku występowania więcej niż dwóch zmiennych objaśniających mamy do czynienia z analizą regresji wieloraką [Greń J. 1984, s. 172-236]. Po przeprowadzeniu obserwacji zmiennych losowych \(X\) i \(Y\) w losowej próbie badanej populacji należy otrzymane wyniki przedstawić w formie wykresu punktowego, tak zwanego diagramu korelacyjnego (rozproszenia). Wartości cech należy usytuować w postaci punktów w układzie współrzędnych. Następnie na wykresie doszukujemy się pewnej krzywej zdolnej najlepiej zobrazować ogólną tendencję zmiany wartości jednej zmiennej pod wpływem zmiany wartości drugiej zmiennej [Woźniak M. 2002, s. 69-100]. Krzywa ta w szczególnym wypadku może przybrać postać prostej. Współzależność między badanymi cechami jest tym większa, im punkty na wykresie są bardziej skupione wokół ogólnej tendencji [Wożniak M. 2002, s. 69-100]. Analiza linii regresji pozwoli nam odpowiedzieć na pytanie o ile średnio wzrośnie wartość jednej zmiennej (\(Y\)), gdy wartość drugiej zmiennej (\(X\)) wzrośnie o jedną jednostkę. Sytuacja jest odwrotna, gdy mamy do czynienia z ujemnie nachyloną linią regresji. W tym wypadku wartość zmiennej \(Y\) spada wraz ze spadkiem wartości zmiennej \(X\). Aby dokładnie opisać tę zależność należy do wykresu dobrać odpowiednią funkcję [Aczel A.D. 2018, s. 591-792].

Konstrukcja modelu

Funkcja regresji służy do opisu, jak kształtuje się ogólna tendencja zależności między zmiennymi \(X\) i \(Y\), nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie model statystyczny dzieli dane na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy (błąd losowy), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on rozkład normalny. Średnia wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich wariancja jest wartością stałą. W modelu regresji składniki losowe muszą być od siebie niezależne [Aczel A.D. 2018, s. 591-792]. Po wcześniejszym dobraniu odpowiedniego modelu do opisu danej sytuacji następnym etapem jest oszacowanie parametrów modelu na podstawie otrzymanej próby losowej. Następnie przystępujemy do analizy błędów (reszt). Zaobserwowane reszty objaśniają, w jakim stopniu wyniki obserwacji nie zostały wyjaśnione przez model. Reszty modelu powinny charakteryzować się czystą losowością. Gdyby okazało się, że reszty zawierają w sobie składnik nielosowy, systematyczny, należy, jeśli to możliwe, zbudowany model regresji przekonstruować tak, aby wyjaśniał znaleziony w resztach składnik systematyczny lub spróbować zbudować inny model [Aczel A.D. 2018, s. 591-792].


Regresja liniowa prosta

Praktyka zakłada dopasowanie funkcji liniowej do sytuacji, w której punkty na wykresie układają się wzdłuż linii prostej. Zatem związek między \(X\) i \(Y\) jest związkiem liniowym. W tej sytuacji model regresji przyjmuje następującą postać [Woźniak M. 2002, s. 69-100]\[ y = a_0+a_1 x+ ε \] gdzie:

  • \(Y\) – zmienna objaśniana (zależna)
  • \(a_0\) – wyraz wolny, punkt przecięcia linii prostej \(y=a_0+a_1 x\) z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu)
  • \(a_1\), – współczynnik regresji, nachylenie linii \(y=a_0+a_1 x\), informuje o ile przeciętnie wzrośnie (a>0) lub spadnie (a<0) wartość zmiennej \(Y\), gdy wartość zmiennej \(X\) wzrośnie o jednostkę
  • \(X\), – zmienna objaśniająca (niezależna, predyktor)
  • \(ε\) – składnik losowy modelu (błąd)

Aby wyznaczyć model regresji liniowej należy obliczyć parametry \(a\) i \(b\). W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów \(a\) i \(b\) tak, aby na podstawie danych z próby \(n\) wartości \((x_i, y_i)\) suma kwadratów odchyleń wartości empirycznych \(y_i\) od wartości teoretycznych \(\hat y_i \) była minimalna [Piłatowska M. 2006, s. 105-113]\[ S = \sum_{i=1}^n (y_i - \hat y_i)^2 = \sum_{i=1}^n (y_i – a_1 x_i – a_0)^2 = minimum \] Wartości parametrów \(a\) i \(b\) obliczamy ze wzorów [Piłatowska M. 2006, s. 105-113]\[a_0=\ \bar y – a_1 \ \bar x\] \( a_1= \frac{= \sum_{i=1}^n (x_i - \ \bar x) (y_i - \ \bar y)}{ \sum_{i=1}^n (x_i - \ \bar x )^2} = \frac{cov (x, y)}{S^2 (x)} \)

gdzie:

  • \(S^2 (x)\) – wariancja
  • \(cov (x, y)\)– kowariancja


Miary dokładności oszacowanego modelu regresji liniowej

„Stopień rozproszenia punktów empirycznych wokół linii regresji, czyli różnice między wartościami empirycznymi zmiennej objaśnianej a jej wartościami teoretycznymi, nazywane resztami \( (u_i = y_i - \hat y_i) \) służą do określenia dokładności dopasowania oszacowanego modelu regresji liniowej do danych empirycznych.” [Piłatowska M. 2006, s. 105-113] Miarami określającymi dokładność oszacowanego modelu regresji liniowej są [Piłatowska M. 2006, s. 105-113]:


Regresja wieloraka

Model regresji liniowej zmiennej objaśnianej \(Y\) względem zbioru \(k\) zmiennych objaśniających \(X_1, X_2, …, X_k\) \[y=a_0+a_1 x_1+a_2 x_2+…+a_k x_k+ε\]

Model regresji wielorakiej (wielowymiarowej) „polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej” [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji \( R^2 \). Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu zwiększa wartość współczynnika determinacji [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]. Miarami współzależności między zmienną objaśnianą \(Y\) a zmiennymi objaśniającymi \(X_1, X_2, …, X_k \) są [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]:

  • współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna – mierzą siłę związku między zmienną \(X\), a pojedynczą zmienną \(Y\), jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających
  • współczynnik korelacji wielorakiej – mierzy współzależność między zmienną \(Y\) a zmiennymi \(X_1, X_2, …, X_k\) traktowanymi łącznie

Modele nieliniowe

Niekiedy zależność pomiędzy zmiennymi w analizie regresji ma charakter nieliniowy. Często jednak poprzez odpowiednią transformację model nieliniowy można sprowadzić do postaci liniowej. Taki model nazywa się „ modelem linearyzowanym” (intrinsically linear) [Aczel A. D. 2018, s. 591-792].


Praktyczne wykorzystanie regresji

„Analiza regresji jest jedną z najważniejszych i najszerzej stosowanych technik statystycznych oraz ma wiele zastosowań w biznesie i ekonomii” [Aczel A. D. 2018, s. 591-792]. Jednym z zastosowań modeli regresji jest zrozumienie związku zachodzącego między zmiennymi. Regresja jednak nie musi świadczyć o tym, że jedna zmienna jest przyczyną drugiej [Aczel A. D. 2018, s. 591-792]. Poprawnie skonstruowany model można wykorzystać do prognozowania, sterowania lub wyjaśniania związków (przyczynowo-skutkowego, symptomatycznego) między zmiennymi. Niestety w praktyce można wykorzystać tylko te modele regresji, które spełniają „kryteria jakości modelu regresji”. Do najważniejszych z nich należą [Piłatowska M. 2006, s. 105-113]:

  • wysoki stopień dopasowania modelu do danych empirycznych
  • istotny statystycznie współczynnik regresji liniowej
  • liniowość zależności \(Y\) względem \(X\) i losowy charakter reszt


Bibliografia

Autor: Sylwia Jałowiec