Analiza regresji

Analiza regresji (statystyczny model regresyjny) to statystyczna metoda służąca modelowaniu związków pomiędzy dwiema lub więcej zmiennymi. Posługujemy się nią w przypadku badania populacji generalnej ze względu równocześnie na co najmniej dwie mierzalne cechy. Model regresji stosuje się do analitycznego wyjaśnienia związku między zmienną objaśnianą - zależną, oznaczaną $Y$ , a zmienną objaśniającą, czyli niezależną, oznaczaną $X$ .

Analiza regresji wyjaśnia, jak kształtuje się wartość zmiennej objaśnianej pod wpływem zmiennej objaśniającej. Regresja zatem w odróżnieniu od analizy korelacji korelacji, która bada siłę zależności między zmiennymi i jej kierunek, określa kształt tej zależności [Piłatowska M. 2006, s. 105-113]. Rozkład tej zależności może mieć postać liniową bądź nieliniową. Gdy ustalona między badanymi cechami korelacja jest dość silna, należy znaleźć funkcję regresji. Funkcja ta pozwoli przewidzieć wartość jednej cechy przy określonej wartości drugiej cechy. W przypadku występowania więcej niż dwóch zmiennych objaśniających mamy do czynienia z analizą regresji wieloraką [Greń J. 1984, s. 172-236]. Po przeprowadzeniu obserwacji zmiennych losowych $X$ i $Y$ w losowej próbie badanej populacji należy otrzymane wyniki przedstawić w formie wykresu punktowego, tak zwanego diagramu korelacyjnego (rozproszenia). Wartości cech należy usytuować w postaci punktów w układzie współrzędnych. Następnie na wykresie doszukujemy się pewnej krzywej zdolnej najlepiej zobrazować ogólną tendencję zmiany wartości jednej zmiennej pod wpływem zmiany wartości drugiej zmiennej [Woźniak M. 2002, s. 69-100]. Krzywa ta w szczególnym wypadku może przybrać postać prostej. Współzależność między badanymi cechami jest tym większa, im punkty na wykresie są bardziej skupione wokół ogólnej tendencji [Wożniak M. 2002, s. 69-100]. Analiza linii regresji pozwoli nam odpowiedzieć na pytanie o ile średnio wzrośnie wartość jednej zmiennej ( $Y$ ), gdy wartość drugiej zmiennej ( $X$ ) wzrośnie o jedną jednostkę. Sytuacja jest odwrotna, gdy mamy do czynienia z ujemnie nachyloną linią regresji. W tym wypadku wartość zmiennej $Y$ spada wraz ze spadkiem wartości zmiennej $X$ . Aby dokładnie opisać tę zależność należy do wykresu dobrać odpowiednią funkcję [Aczel A.D. 2018, s. 591-792].

TL;DR

Analiza regresji to statystyczna metoda służąca do modelowania związków pomiędzy zmiennymi. Polega ona na wyjaśnieniu związku między zmienną objaśnianą a zmienną objaśniającą. Analiza regresji może opisywać zarówno zależności liniowe, jak i nieliniowe. Konstrukcja modelu regresji polega na dopasowaniu funkcji do danych i oszacowaniu jej parametrów. Regresja liniowa prosta zakłada związek liniowy między zmiennymi. Regresja wieloraka polega na zastosowaniu wielu zmiennych objaśniających. Analiza regresji ma wiele zastosowań w biznesie i ekonomii, ale należy stosować modele spełniające kryteria jakości.

Konstrukcja modelu

Funkcja regresji służy do opisu, jak kształtuje się ogólna tendencja zależności między zmiennymi $X$ i $Y$ , nie jest ona jednak w stanie dokładnie wyjaśnić tej zależności [Piłatowska M. 2006, s. 105-113]. W pewnym sensie model statystyczny dzieli dane na dwie kategorie: nielosowe, systematyczne elementy, które mogą zostać opisane przez formułę oraz element czysto losowy (błąd losowy), który pojawia się w wyniku dopasowania modelu do danych. Zakładamy, że ma on rozkład normalny. Średnia wszystkich błędów losowych w rozkładzie normalnym musi być równa zeru, a ich wariancja jest wartością stałą. W modelu regresji składniki losowe muszą być od siebie niezależne [Aczel A.D. 2018, s. 591-792]. Po wcześniejszym dobraniu odpowiedniego modelu do opisu danej sytuacji następnym etapem jest oszacowanie parametrów modelu na podstawie otrzymanej próby losowej. Następnie przystępujemy do analizy błędów (reszt). Zaobserwowane reszty objaśniają, w jakim stopniu wyniki obserwacji nie zostały wyjaśnione przez model. Reszty modelu powinny charakteryzować się czystą losowością. Gdyby okazało się, że reszty zawierają w sobie składnik nielosowy, systematyczny, należy, jeśli to możliwe, zbudowany model regresji przekonstruować tak, aby wyjaśniał znaleziony w resztach składnik systematyczny lub spróbować zbudować inny model [Aczel A.D. 2018, s. 591-792].

Regresja liniowa prosta

Praktyka zakłada dopasowanie funkcji liniowej do sytuacji, w której punkty na wykresie układają się wzdłuż linii prostej. Zatem związek między $X$ i $Y$ jest związkiem liniowym. W tej sytuacji model regresji przyjmuje następującą postać [Woźniak M. 2002, s. 69-100]: $y=a_{0}+a_{1}x+\epsilon$ gdzie:

$Y$ - zmienna objaśniana (zależna)
$a_{0}$ - wyraz wolny, punkt przecięcia linii prostej $y=a_{0}+a_{1}x$ z osią rzędnych (linia nie zawiera składnika losowego, jest składnikiem nielosowym, systematycznym modelu)
$a_{1}$ , - współczynnik regresji, nachylenie linii $y=a_{0}+a_{1}x$ , informuje o ile przeciętnie wzrośnie (a>0) lub spadnie (a<0) wartość zmiennej $Y$ , gdy wartość zmiennej $X$ wzrośnie o jednostkę
$X$ , - zmienna objaśniająca (niezależna, predyktor)
$\epsilon$ - składnik losowy modelu (błąd)

Aby wyznaczyć model regresji liniowej należy obliczyć parametry $a$ i $b$ . W tym celu wykorzystuje się metodę najmniejszych kwadratów, dzięki której znalezione współczynniki najlepiej dopasowują funkcję regresji do danych. Korzystając z tej metody ustalamy wartości parametrów $a$ i $b$ tak, aby na podstawie danych z próby $n$ wartości $(x_{i},y_{i})$ suma kwadratów odchyleń wartości empirycznych $y_{i}$ od wartości teoretycznych ${\hat {y}}_{i}$ była minimalna [Piłatowska M. 2006, s. 105-113]:

$S=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}=\sum _{i=1}^{n}(y_{i}-a_{1}x_{i}-a_{0})^{2}=minimum$

Wartości parametrów $a$ i $b$ obliczamy ze wzorów [Piłatowska M. 2006, s. 105-113]:

$a_{0}=\ {\bar {y}}-a_{1}\ {\bar {x}}$ $a_{1}={\frac {\sum _{i=1}^{n}(x_{i}-\ {\bar {x}})(y_{i}-\ {\bar {y}})}{\sum _{i=1}^{n}(x_{i}-\ {\bar {x}})^{2}}}={\frac {cov(x,y)}{S^{2}(x)}}$

gdzie:

$S^{2}(x)$ - wariancja
$cov(x,y)$ - kowariancja

Miary dokładności oszacowanego modelu regresji liniowej

"Stopień rozproszenia punktów empirycznych wokół linii regresji, czyli różnice między wartościami empirycznymi zmiennej objaśnianej a jej wartościami teoretycznymi, nazywane resztami $(u_{i}=y_{i}-{\hat {y}}_{i})$ służą do określenia dokładności dopasowania oszacowanego modelu regresji liniowej do danych empirycznych". [Piłatowska M. 2006, s. 105-113] Miarami określającymi dokładność oszacowanego modelu regresji liniowej są [Piłatowska M. 2006, s. 105-113]:

wariancja resztowa $S^{2}(u)$ i odchylenie standardowe reszt $S(u)$
współczynnik zmienności losowej $V_{u}$
współczynnik determinacji $R^{2}$ i współczynnik zbieżności $\varphi ^{2}$

Regresja wieloraka

Model regresji liniowej zmiennej objaśnianej $Y$ względem zbioru $k$ zmiennych objaśniających $X_{1},X_{2},...,X_{k}$ : $y=a_{0}+a_{1}x_{1}+a_{2}x_{2}+...+a_{k}x_{k}+\epsilon$

Model regresji wielorakiej (wielowymiarowej) "polega na zastosowaniu wielu zmiennych objaśniających do przewidywania wartości zmiennej objaśnianej" [Aczel A.D. 2018, s. 591-792]. Do podstawowego modelu regresji wprowadzany dodatkowe zmienne objaśniające w przypadku, gdy regresja z jedną zmienną objaśniającą nie osiąga dostatecznej wartości współczynnika determinacji $R^{2}$ . Ma to na celu zmniejszenie zmienności resztowej, jednak jest to uzasadnione tylko w momencie, gdy każda kolejna zmienna objaśniająca wprowadzona do modelu zwiększa wartość współczynnika determinacji [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]. Miarami współzależności między zmienną objaśnianą $Y$ a zmiennymi objaśniającymi $X_{1},X_{2},...,X_{k}$ są [Iwaszkiewicz A. Paszek Z. 2004, s. 143-162]:

współczynniki korelacji cząstkowej, dla poszczególnych zmiennych objaśniających traktowanych z osobna - mierzą siłę związku między zmienną $X$ , a pojedynczą zmienną $Y$ , jednocześnie eliminując wpływ wszystkich pozostałych zmiennych objaśniających
współczynnik korelacji wielorakiej - mierzy współzależność między zmienną $Y$ a zmiennymi $X_{1},X_{2},...,X_{k}$ traktowanymi łącznie

Modele nieliniowe

Niekiedy zależność pomiędzy zmiennymi w analizie regresji ma charakter nieliniowy. Często jednak poprzez odpowiednią transformację model nieliniowy można sprowadzić do postaci liniowej. Taki model nazywa się " modelem linearyzowanym" (intrinsically linear) [Aczel A. D. 2018, s. 591-792].

Praktyczne wykorzystanie regresji

"Analiza regresji jest jedną z najważniejszych i najszerzej stosowanych technik statystycznych oraz ma wiele zastosowań w biznesie i ekonomii" [Aczel A. D. 2018, s. 591-792]. Jednym z zastosowań modeli regresji jest zrozumienie związku zachodzącego między zmiennymi. Regresja jednak nie musi świadczyć o tym, że jedna zmienna jest przyczyną drugiej [Aczel A. D. 2018, s. 591-792]. Poprawnie skonstruowany model można wykorzystać do prognozowania, sterowania lub wyjaśniania związków (przyczynowo-skutkowego, symptomatycznego) między zmiennymi. Niestety w praktyce można wykorzystać tylko te modele regresji, które spełniają "kryteria jakości modelu regresji". Do najważniejszych z nich należą [Piłatowska M. 2006, s. 105-113]:

wysoki stopień dopasowania modelu do danych empirycznych
istotny statystycznie współczynnik regresji liniowej
liniowość zależności $Y$ względem $X$ i losowy charakter reszt

Analiza regresji — artykuły polecane
Poziom istotności — Kwartyl — ANOVA — Histogram — Metody statystyczne — Regresja liniowa — Estymator nieobciążony — Analiza przyczynowa — Skala interwałowa

Bibliografia

Aczel A. (2018), Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa
Greń J. (1984), Statystyka matematyczna. Modele i zadania, PWN, Warszawa
Iwasiewicz A., Paszek Z. (2004), Statystyka z elementami statystycznych metod monitorowania procesów, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków
Piłatowska M. (2006), Repetytorium ze statystyki, Wydawnictwo Naukowe PWN, Warszawa
Radziszewska-Zielina E., Szewczyk B. (2014), Analiza regresji pomiędzy poziomem relacji partnerskich a ich wpływem na czas, koszt, jakość i bezpieczeństwo realizacji przedsięwzięć budowlanych,
Walesiak M. (1993), Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe Akademii Ekonomicznej we Wrocławiu, nr 654
Wątroba J. (2003), Metody statystyczne stosowane do analizy zadowolenia i lojalności klientów, StatSoft Polska
Woźniak M. (2002), Statystyka ogólna, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków

Autor: Sylwia Jałowiec

Anonimowy

Szukaj

Analiza regresji

Przestrzenie nazw

Więcej

Działania na stronie

TL;DR

Konstrukcja modelu

Regresja liniowa prosta

Miary dokładności oszacowanego modelu regresji liniowej

Regresja wieloraka

Modele nieliniowe

Praktyczne wykorzystanie regresji

Bibliografia

Nawigacja

Encyklopedia

Spis treści

Spis treści

Narzędzia wiki

Narzędzia wiki

Anonimowy

Szukaj

Analiza regresji

TL;DR

Konstrukcja modelu

Regresja liniowa prosta

Miary dokładności oszacowanego modelu regresji liniowej

Regresja wieloraka

Modele nieliniowe

Praktyczne wykorzystanie regresji

Bibliografia

Nawigacja

Spis treści

Narzędzia wiki

Narzędzia dla stron

Kategorie