Regresja liniowa: Różnice pomiędzy wersjami

Z Encyklopedia Zarządzania
m (Infobox update)
 
m (cleanup bibliografii i rotten links)
 
(Nie pokazano 20 wersji utworzonych przez 3 użytkowników)
Linia 1: Linia 1:
{{infobox4
'''[[Regresja]] liniowa''' - jest jedną z podstawowych technik wchodzących w skład modelowania ekonometrycznego. Regresja liniowa stanowi pierwsze przybliżenie analizowanych danych. Jednakże jest ono w wielu przypadkach mało dokładne, ale lecz szybkie (Michał Bernardelli 2012, s. 55). Wykorzystywana jest do analizowania relacji między zmiennymi numerycznymi. Zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową.
|list1=
<ul>
<li>[[Estymator obciążony]]</li>
<li>[[Błąd bezwzględny]]</li>
<li>[[Analiza regresji]]</li>
<li>[[Metody statystyczne]]</li>
<li>[[Estymacja]]</li>
<li>[[Współczynnik korelacji rang Spearmana]]</li>
<li>[[Rozkład normalny]]</li>
<li>[[Test zgodności chi-kwadrat]]</li>
<li>[[Rozstęp]]</li>
</ul>
}}
'''Regresja liniowa''' jest jedną z podstawowych technik wchodzących w skład modelowania ekonometrycznego. Regresja liniowa stanowi pierwsze przybliżenie analizowanych danych. Jednakże jest ono w wielu przypadkach mało dokładne, ale lecz szybkie. (Michał Bernardelli 2012, s. 55). Wykorzystywana jest do analizowania relacji między zmiennymi numerycznymi. Zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową.


== Model Regresji liniowej==
==TL;DR==
Przyjmując założenie o liniowej zależności między zmiennymi nasz model ma postać:
Regresja liniowa to podstawowa technika w modelowaniu ekonometrycznym, która analizuje relacje między zmiennymi numerycznymi. Model regresji liniowej opisuje zależność między zmienną zależną a zmienną niezależną. Metoda najmniejszych kwadratów służy do znalezienia najlepiej dopasowanej prostej. Regresja wieloraka uwzględnia wpływ wielu cech niezależnych na zmienną zależną.
 
==Model Regresji liniowej==
Przyjmując [[założenie]] o liniowej zależności między zmiennymi nasz [[model]] ma postać:


y = β<sub>0</sub> + β<sub>1</sub>X + &epsilon;
y = β<sub>0</sub> + β<sub>1</sub>X + &epsilon;


Gdzie:
Gdzie:
* '''Y''' to zmienna zależna (również nazywana zmienną objaśnianą), której wartości chcemy wyjaśnić albo przewidzieć
* '''Y''' to [[zmienna]] zależna (również nazywana zmienną objaśnianą), której wartości chcemy wyjaśnić albo przewidzieć
* '''X''' to zmienną niezależną (inaczej zmienną objaśniającą) nazywaną jest również predyktorem, zakładamy, że zmienna ta nie jest zdegenerowana do stałej. W przeciwnym razie nie byłoby sensu rozważać problemu regresji.
* '''X''' to zmienną niezależną (inaczej zmienną objaśniającą) nazywaną jest również predyktorem, zakładamy, że zmienna ta nie jest zdegenerowana do stałej. W przeciwnym razie nie byłoby sensu rozważać problemu regresji.
* '''&epsilon;''' to błęd losowym (inaczej zakłóceniem, szumem), jedynym źródłem losowości  
* '''&epsilon;''' to błęd losowym (inaczej zakłóceniem, szumem), jedynym źródłem losowości
* '''β<sub>0</sub>''' to wyraz wolny będący punktem przecięcia linii '''Y = β<sub>0</sub> + β<sub>1</sub>X''' z osią rzędnych.  
* '''β<sub>0</sub>''' to wyraz wolny będący punktem przecięcia linii '''Y = β<sub>0</sub> + β<sub>1</sub>X''' z osią rzędnych.
* '''β<sub>1</sub>''' to współczynnik kierunkowym, czyli tangensem kąta pod którym linia '''Y = β<sub>o</sub>+ β<sub>1</sub>X''' nachylona jest do osi odciętych (Maciej Kostrzewski 2020, s. 1-2)
* '''β<sub>1</sub>''' to współczynnik kierunkowym, czyli tangensem kąta pod którym linia '''Y = β<sub>o</sub>+ β<sub>1</sub>X''' nachylona jest do osi odciętych (Maciej Kostrzewski 2020, s. 1-2)


==Postulat Gaussa==
==Postulat Gaussa==
<google>t</google>
"Wykonując '''n''' pomiarów wielkości '''x''' i '''y''' będących w zależności liniowej
„Wykonując '''n''' pomiarów wielkości '''x''' i '''y''' będących w zależności liniowej
<font size = '3'> '''y = ax+b''' </font> uzyskujemy '''n''' par liczb (x<sub>i</sub> , y<sub>i</sub> ) i graficznym obrazem są punkty rozrzucone na pewnym obszarze, niekoniecznie na linii prostej.
<font size = '3'> '''y = ax+b''' </font> uzyskujemy '''n''' par liczb (x<sub>i</sub> , y<sub>i</sub> ) i graficznym obrazem są punkty rozrzucone na pewnym obszarze, niekoniecznie na linii prostej.
Rozbieżność wyniku pomiaru '''y<sub>i</sub>''' i wartości teoretycznej '''y''' z równania <font size = '3'> '''y = ax+b''' </font>  
Rozbieżność wyniku pomiaru '''y<sub>i</sub>''' i wartości teoretycznej '''y''' z równania <font size = '3'> '''y = ax+b''' </font>
wynika z niepewności pomiarowej i można zapisać w postaci: '''y<sub>i</sub> y = y<sub>i</sub> (ax<sub>i</sub> + b)''' dopasowanie metodą regresji liniowej oznacza, że:  
wynika z niepewności pomiarowej i można zapisać w postaci: '''y<sub>i</sub> - y = y<sub>i</sub> - (ax<sub>i</sub> + b)''' dopasowanie metodą regresji liniowej oznacza, że:


<math>\sum_{i=1}^n (y_i - (\bar a x_i+ \bar b ))^2 = min </math>
<math>\sum_{i=1}^n (y_i - (\bar a x_i+ \bar b ))^2 = min </math>
Regresja liniowa polega na znalezieniu parametrów '''a''' i '''b''' prostej '''y = ax + b''' takich aby spełniały postulat Gaussa, gdzie '''a''' i '''b''' współczynniki regresji liniowej tj. aby suma kwadratów różnic między wartościami zmierzonymi yi i obliczonymi y była jak najmniejsza (przy założeniu, że wszystkie punkty pomiarowe obarczone są jednakowymi niepewnościami przypadkowymi o rozkładzie Gaussa)(Tadeusz M. Molenda 2020, s. 5-7)
Regresja liniowa polega na znalezieniu parametrów '''a''' i '''b''' prostej '''y = ax + b''' takich aby spełniały postulat Gaussa, gdzie '''a''' i '''b''' współczynniki regresji liniowej tj. aby suma kwadratów różnic między wartościami zmierzonymi yi i obliczonymi y była jak najmniejsza (przy założeniu, że wszystkie punkty pomiarowe obarczone są jednakowymi niepewnościami przypadkowymi o rozkładzie Gaussa)" (Tadeusz M. Molenda 2020, s. 5-7)
 
<google>n</google>


== Metoda najmniejszych kwadratów==
==Metoda najmniejszych kwadratów==
Jeżeli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa to regresja liniowa jest prostą metodą wyznaczenia parametrów, najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć nam do wyznaczenia szukanej wielkości fizycznej. Parametry prostej, która jest określona równaniem y = ax + b możemy wyznaczyć przy użyciu wzorów:
Jeżeli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa to regresja liniowa jest prostą metodą wyznaczenia parametrów, najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć nam do wyznaczenia szukanej wielkości fizycznej. Parametry prostej, która jest określona równaniem y = ax + b możemy wyznaczyć przy użyciu wzorów:
<math> a=\frac{n\sum_{} x_i y_i - \sum_{} x_i \sum_{} y_i}{n\sum_{}x_i^2-(\sum_{} x_i)^2}   b=\frac{1}{n}( \sum_{} y_i - a\sum_{}x_i)</math>
<math> a=\frac{n\sum_{} x_i y_i - \sum_{} x_i \sum_{} y_i}{n\sum_{}x_i^2-(\sum_{} x_i)^2} b=\frac{1}{n}( \sum_{} y_i - a\sum_{}x_i)</math>


Gdzie:
Gdzie:
Linia 47: Linia 37:
Błędy wyznaczonych wartości a i b określone są wzorami:
Błędy wyznaczonych wartości a i b określone są wzorami:
<math> S_a=\sqrt{\frac{n [\sum_{} y_i^2-a\sum_{}x_iy_i-b\sum_{}y_i]}{(n-2)[n\sum_{}x_i^2-(\sum_{}x_i)^2]}}
<math> S_a=\sqrt{\frac{n [\sum_{} y_i^2-a\sum_{}x_iy_i-b\sum_{}y_i]}{(n-2)[n\sum_{}x_i^2-(\sum_{}x_i)^2]}}
  S_b=\sqrt{\frac{1}{2}S_a^2 \sum_{} x_i^2} </math>  
  S_b=\sqrt{\frac{1}{2}S_a^2 \sum_{} x_i^2} </math>


(Teresa Lewkowicz 2020, s. 1)
(Teresa Lewkowicz 2020, s. 1)


==Regresja Wieroraka==
==Regresja Wieroraka==
W regresji wielorakiej uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz
W regresji wielorakiej uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz
układem '''k''' cech X<sub>1</sub>, X<sub>2</sub>, . . ., X<sub>k</sub>. Model regresji wielokrotnej można
układem '''k''' cech X<sub>1</sub>, X<sub>2</sub>,. . ., X<sub>k</sub>. Model regresji wielokrotnej można
zapisać w postaci:
zapisać w postaci:
'''Y = Xβ + ε''',
'''Y = Xβ + ε''',


Gdzie  
Gdzie
* '''Y''' jest wektorem obserwacji zmiennej objaśnianej,
* '''Y''' jest wektorem obserwacji zmiennej objaśnianej,
* '''X''' jest macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu).
* '''X''' jest macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu).


W celu estymacji parametrów modelu używamy Metody Najmniejszych Kwadratów otrzymując:
W celu estymacji parametrów modelu używamy Metody Najmniejszych Kwadratów otrzymując:
<math> \hat β = (X'X)^-1 X'Y </math>
<math> \hat \beta = (X'X)^-1 X'Y </math>


Bardzo często w przypadku wykorzystania regresji wielorakiej naszego największego zainteresowania nie budzi prognoza, lecz interesuje nas, które zmienne wpływają na badane przez nas zjawisko w sposób pobudzający, a które je hamują. Zmienne, które wpływają na badane zjawisko nazywamy '''stymulantami''', natomiast te, które je hamują nazywane są'''destymulantami'''.
Bardzo często w przypadku wykorzystania regresji wielorakiej naszego największego zainteresowania nie budzi [[prognoza]], lecz interesuje nas, które zmienne wpływają na badane przez nas zjawisko w sposób pobudzający, a które je hamują. Zmienne, które wpływają na badane zjawisko nazywamy '''stymulantami''', natomiast te, które je hamują nazywane są'''destymulantami'''.
Stymulantami są zmienne, które w oszacowanym
Stymulantami są zmienne, które w oszacowanym
modelu regresji mają dodatnie wartości parametrów regresji.
modelu regresji mają dodatnie wartości parametrów regresji.
Destymulanty to zmienne o ujemnych parametrach. Możemy jeszcze
Destymulanty to zmienne o ujemnych parametrach. Możemy jeszcze
określić zmienne, które są neutralne (nieistotne), czyli takie, które nie mają żadnego wpływu na badane zjawisko. (Tomasz Górecki 2020, s. 34-37)
określić zmienne, które są neutralne (nieistotne), czyli takie, które nie mają żadnego wpływu na badane zjawisko (Tomasz Górecki 2020, s. 34-37)
 
{{infobox5|list1={{i5link|a=[[Estymator obciążony]]}} &mdash; {{i5link|a=[[Błąd bezwzględny]]}} &mdash; {{i5link|a=[[Analiza regresji]]}} &mdash; {{i5link|a=[[Metody statystyczne]]}} &mdash; {{i5link|a=[[Estymacja]]}} &mdash; {{i5link|a=[[Współczynnik korelacji rang Spearmana]]}} &mdash; {{i5link|a=[[Rozkład normalny]]}} &mdash; {{i5link|a=[[Test zgodności chi-kwadrat]]}} &mdash; {{i5link|a=[[Rozstęp]]}} }}


==Bibliografia==
==Bibliografia==
* Bernardelli M, (2012). [http://rocznikikae.sgh.waw.pl/p/roczniki_kae_z27_04.pdf ''Metoda szybkiej aktualizacjidekompozycji QR dla modeli liniowej regresji''], Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie
<noautolinks>
* Górecki T, (2020). [http://drizzt.home.amu.edu.pl/images/DADA/W4.pdf  ''Analiza Danych W4'' ], Collegium Mathematicum Uniwersytetu Poznańskiego 4
* Bernardelli M. (2012), ''[https://rocznikikae.sgh.waw.pl/p/roczniki_kae_z27_04.pdf Metoda szybkiej aktualizacjidekompozycji QR dla modeli liniowej regresji]'', Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie
* Hellwig Z, (1963). ''Regresja liniowa i jej zastosowanie w ekonomii'', Państwowe Wydawnictwo Ekonomiczne, Warszawa
* Górecki T. (2020), ''Analiza Danych W4'', Collegium Mathematicum Uniwersytetu Poznańskiego
* Kostrzewski M, (2020). [http://home.agh.edu.pl/~kostrzew/Regresja1.pdf ''Regresja''], Wydział Matematyki Stosowanej Akademii Górniczo-Hutniczej im. Stanisława Staszica w Krakowie
* Hellwig Z. (1963), ''Regresja liniowa i jej zastosowanie w ekonomii'', Państwowe Wydawnictwo Ekonomiczne, Warszawa
* Lewkowicz T, (2020). [http://fluid.itcmp.pwr.wroc.pl/~lewkow/regresja-liniowa.pdf ''Regresja Liniowa''], Politechnika Wrocławska
* Kostrzewski M. (2020), ''[https://home.agh.edu.pl/~kostrzew/Regresja1.pdf Regresja]'', Wydział Matematyki Stosowanej Akademii Górniczo-Hutniczej im. Stanisława Staszica w Krakowie
* Molenda T, (2020). [http://dydfiz.univ.szczecin.pl/plik/Regresja_liniowa_MNK.pdf ''Regresja linowa metoda najmniejszych kwadratów''], Instytut Fizyki US
* Lewkowicz T. (2020), ''Regresja Liniowa'', Politechnika Wrocławska
* Molenda T. (2020), ''[https://dydfiz.univ.szczecin.pl/plik/Regresja_liniowa_MNK.pdf Regresja linowa metoda najmniejszych kwadratów]'', Instytut Fizyki US
</noautolinks>


[[Kategoria:Statystyka i Ekonometria]]
[[Kategoria:Statystyka]]


{{a|Barbara Treśka}}.
{{a|Barbara Treśka}}.
{{#metamaster:description|Regresja liniowa - podstawowa technika modelowania ekonometrycznego. Szybkie, chociaż mniej dokładne przybliżenie danych. Analizuje relacje między zmiennymi numerycznymi poprzez zależność liniową.}}

Aktualna wersja na dzień 00:23, 10 sty 2024

Regresja liniowa - jest jedną z podstawowych technik wchodzących w skład modelowania ekonometrycznego. Regresja liniowa stanowi pierwsze przybliżenie analizowanych danych. Jednakże jest ono w wielu przypadkach mało dokładne, ale lecz szybkie (Michał Bernardelli 2012, s. 55). Wykorzystywana jest do analizowania relacji między zmiennymi numerycznymi. Zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową.

TL;DR

Regresja liniowa to podstawowa technika w modelowaniu ekonometrycznym, która analizuje relacje między zmiennymi numerycznymi. Model regresji liniowej opisuje zależność między zmienną zależną a zmienną niezależną. Metoda najmniejszych kwadratów służy do znalezienia najlepiej dopasowanej prostej. Regresja wieloraka uwzględnia wpływ wielu cech niezależnych na zmienną zależną.

Model Regresji liniowej

Przyjmując założenie o liniowej zależności między zmiennymi nasz model ma postać:

y = β0 + β1X + ε

Gdzie:

  • Y to zmienna zależna (również nazywana zmienną objaśnianą), której wartości chcemy wyjaśnić albo przewidzieć
  • X to zmienną niezależną (inaczej zmienną objaśniającą) nazywaną jest również predyktorem, zakładamy, że zmienna ta nie jest zdegenerowana do stałej. W przeciwnym razie nie byłoby sensu rozważać problemu regresji.
  • ε to błęd losowym (inaczej zakłóceniem, szumem), jedynym źródłem losowości
  • β0 to wyraz wolny będący punktem przecięcia linii Y = β0 + β1X z osią rzędnych.
  • β1 to współczynnik kierunkowym, czyli tangensem kąta pod którym linia Y = βo+ β1X nachylona jest do osi odciętych (Maciej Kostrzewski 2020, s. 1-2)

Postulat Gaussa

"Wykonując n pomiarów wielkości x i y będących w zależności liniowej y = ax+b uzyskujemy n par liczb (xi , yi ) i graficznym obrazem są punkty rozrzucone na pewnym obszarze, niekoniecznie na linii prostej. Rozbieżność wyniku pomiaru yi i wartości teoretycznej y z równania y = ax+b wynika z niepewności pomiarowej i można zapisać w postaci: yi - y = yi - (axi + b) dopasowanie metodą regresji liniowej oznacza, że:

Regresja liniowa polega na znalezieniu parametrów a i b prostej y = ax + b takich aby spełniały postulat Gaussa, gdzie a i b współczynniki regresji liniowej tj. aby suma kwadratów różnic między wartościami zmierzonymi yi i obliczonymi y była jak najmniejsza (przy założeniu, że wszystkie punkty pomiarowe obarczone są jednakowymi niepewnościami przypadkowymi o rozkładzie Gaussa)" (Tadeusz M. Molenda 2020, s. 5-7)

Metoda najmniejszych kwadratów

Jeżeli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa to regresja liniowa jest prostą metodą wyznaczenia parametrów, najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć nam do wyznaczenia szukanej wielkości fizycznej. Parametry prostej, która jest określona równaniem y = ax + b możemy wyznaczyć przy użyciu wzorów:

Gdzie:

  • xi, yi jest wartością doświadczalną,
  • n jest liczbą wykonanych pomiarów.

Błędy wyznaczonych wartości a i b określone są wzorami:

(Teresa Lewkowicz 2020, s. 1)

Regresja Wieroraka

W regresji wielorakiej uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz układem k cech X1, X2,. . ., Xk. Model regresji wielokrotnej można zapisać w postaci: Y = Xβ + ε,

Gdzie

  • Y jest wektorem obserwacji zmiennej objaśnianej,
  • X jest macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu).

W celu estymacji parametrów modelu używamy Metody Najmniejszych Kwadratów otrzymując:

Bardzo często w przypadku wykorzystania regresji wielorakiej naszego największego zainteresowania nie budzi prognoza, lecz interesuje nas, które zmienne wpływają na badane przez nas zjawisko w sposób pobudzający, a które je hamują. Zmienne, które wpływają na badane zjawisko nazywamy stymulantami, natomiast te, które je hamują nazywane sądestymulantami. Stymulantami są zmienne, które w oszacowanym modelu regresji mają dodatnie wartości parametrów regresji. Destymulanty to zmienne o ujemnych parametrach. Możemy jeszcze określić zmienne, które są neutralne (nieistotne), czyli takie, które nie mają żadnego wpływu na badane zjawisko (Tomasz Górecki 2020, s. 34-37)


Regresja liniowaartykuły polecane
Estymator obciążonyBłąd bezwzględnyAnaliza regresjiMetody statystyczneEstymacjaWspółczynnik korelacji rang SpearmanaRozkład normalnyTest zgodności chi-kwadratRozstęp

Bibliografia

  • Bernardelli M. (2012), Metoda szybkiej aktualizacjidekompozycji QR dla modeli liniowej regresji, Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie
  • Górecki T. (2020), Analiza Danych W4, Collegium Mathematicum Uniwersytetu Poznańskiego
  • Hellwig Z. (1963), Regresja liniowa i jej zastosowanie w ekonomii, Państwowe Wydawnictwo Ekonomiczne, Warszawa
  • Kostrzewski M. (2020), Regresja, Wydział Matematyki Stosowanej Akademii Górniczo-Hutniczej im. Stanisława Staszica w Krakowie
  • Lewkowicz T. (2020), Regresja Liniowa, Politechnika Wrocławska
  • Molenda T. (2020), Regresja linowa metoda najmniejszych kwadratów, Instytut Fizyki US


Autor: Barbara Treśka

.