Regresja liniowa

Regresja liniowa
Polecane artykuły

Regresja liniowa – jest jedną z podstawowych technik wchodzących w skład modelowania ekonometrycznego. Regresja liniowa stanowi pierwsze przybliżenie analizowanych danych. Jednakże jest ono w wielu przypadkach mało dokładne, ale lecz szybkie. (Michał Bernardelli 2012, s. 55). Wykorzystywana jest do analizowania relacji między zmiennymi numerycznymi. Zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową.

Model Regresji liniowej

Przyjmując założenie o liniowej zależności między zmiennymi nasz model ma postać:

y = β0 + β1X + ε

Gdzie:

  • Y to zmienna zależna (również nazywana zmienną objaśnianą), której wartości chcemy wyjaśnić albo przewidzieć
  • X to zmienną niezależną (inaczej zmienną objaśniającą) nazywaną jest również predyktorem, zakładamy, że zmienna ta nie jest zdegenerowana do stałej. W przeciwnym razie nie byłoby sensu rozważać problemu regresji.
  • ε to błęd losowym (inaczej zakłóceniem, szumem), jedynym źródłem losowości
  • β0 to wyraz wolny będący punktem przecięcia linii Y = β0 + β1X z osią rzędnych.
  • β1 to współczynnik kierunkowym, czyli tangensem kąta pod którym linia Y = βo+ β1X nachylona jest do osi odciętych (Maciej Kostrzewski 2020, s. 1-2)

Postulat Gaussa

„Wykonując n pomiarów wielkości x i y będących w zależności liniowej y = ax+b uzyskujemy n par liczb (xi , yi ) i graficznym obrazem są punkty rozrzucone na pewnym obszarze, niekoniecznie na linii prostej. Rozbieżność wyniku pomiaru yi i wartości teoretycznej y z równania y = ax+b wynika z niepewności pomiarowej i można zapisać w postaci: yi – y = yi – (axi + b) dopasowanie metodą regresji liniowej oznacza, że\[\sum_{i=1}^n (y_i - (\bar a x_i+ \bar b ))^2 = min \] Regresja liniowa polega na znalezieniu parametrów a i b prostej y = ax + b takich aby spełniały postulat Gaussa, gdzie a i b współczynniki regresji liniowej tj. aby suma kwadratów różnic między wartościami zmierzonymi yi i obliczonymi y była jak najmniejsza (przy założeniu, że wszystkie punkty pomiarowe obarczone są jednakowymi niepewnościami przypadkowymi o rozkładzie Gaussa)” (Tadeusz M. Molenda 2020, s. 5-7)

Metoda najmniejszych kwadratów

Jeżeli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa to regresja liniowa jest prostą metodą wyznaczenia parametrów, najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć nam do wyznaczenia szukanej wielkości fizycznej. Parametry prostej, która jest określona równaniem y = ax + b możemy wyznaczyć przy użyciu wzorów\[ a=\frac{n\sum_{} x_i y_i - \sum_{} x_i \sum_{} y_i}{n\sum_{}x_i^2-(\sum_{} x_i)^2} b=\frac{1}{n}( \sum_{} y_i - a\sum_{}x_i)\]

Gdzie:

  • xi, yi jest wartością doświadczalną,
  • n jest liczbą wykonanych pomiarów.

Błędy wyznaczonych wartości a i b określone są wzorami\[ S_a=\sqrt{\frac{n [\sum_{} y_i^2-a\sum_{}x_iy_i-b\sum_{}y_i]}{(n-2)[n\sum_{}x_i^2-(\sum_{}x_i)^2]}} S_b=\sqrt{\frac{1}{2}S_a^2 \sum_{} x_i^2} \]

(Teresa Lewkowicz 2020, s. 1)

Regresja Wieroraka

W regresji wielorakiej uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz układem k cech X1, X2, . . ., Xk. Model regresji wielokrotnej można zapisać w postaci: Y = Xβ + ε,

Gdzie

  • Y jest wektorem obserwacji zmiennej objaśnianej,
  • X jest macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu).

W celu estymacji parametrów modelu używamy Metody Najmniejszych Kwadratów otrzymując\[ \hat β = (X'X)^-1 X'Y \]

Bardzo często w przypadku wykorzystania regresji wielorakiej naszego największego zainteresowania nie budzi prognoza, lecz interesuje nas, które zmienne wpływają na badane przez nas zjawisko w sposób pobudzający, a które je hamują. Zmienne, które wpływają na badane zjawisko nazywamy stymulantami, natomiast te, które je hamują nazywane sądestymulantami. Stymulantami są zmienne, które w oszacowanym modelu regresji mają dodatnie wartości parametrów regresji. Destymulanty to zmienne o ujemnych parametrach. Możemy jeszcze określić zmienne, które są neutralne (nieistotne), czyli takie, które nie mają żadnego wpływu na badane zjawisko. (Tomasz Górecki 2020, s. 34-37)

Bibliografia

Autor: Barbara Treśka

.