Regresja liniowa: Różnice pomiędzy wersjami
m (cleanup bibliografii i rotten links) |
|||
(Nie pokazano 16 wersji utworzonych przez 2 użytkowników) | |||
Linia 1: | Linia 1: | ||
'''[[Regresja]] liniowa''' - jest jedną z podstawowych technik wchodzących w skład modelowania ekonometrycznego. Regresja liniowa stanowi pierwsze przybliżenie analizowanych danych. Jednakże jest ono w wielu przypadkach mało dokładne, ale lecz szybkie (Michał Bernardelli 2012, s. 55). Wykorzystywana jest do analizowania relacji między zmiennymi numerycznymi. Zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową. | |||
'''[[Regresja]] liniowa''' | |||
==TL;DR== | ==TL;DR== | ||
Regresja liniowa to podstawowa technika w modelowaniu ekonometrycznym, która analizuje relacje między zmiennymi numerycznymi. Model regresji liniowej opisuje zależność między zmienną zależną a zmienną niezależną. Metoda najmniejszych kwadratów służy do znalezienia najlepiej dopasowanej prostej. Regresja wieloraka uwzględnia wpływ wielu cech niezależnych na zmienną zależną. | Regresja liniowa to podstawowa technika w modelowaniu ekonometrycznym, która analizuje relacje między zmiennymi numerycznymi. Model regresji liniowej opisuje zależność między zmienną zależną a zmienną niezależną. Metoda najmniejszych kwadratów służy do znalezienia najlepiej dopasowanej prostej. Regresja wieloraka uwzględnia wpływ wielu cech niezależnych na zmienną zależną. | ||
== Model Regresji liniowej== | ==Model Regresji liniowej== | ||
Przyjmując [[założenie]] o liniowej zależności między zmiennymi nasz [[model]] ma postać: | Przyjmując [[założenie]] o liniowej zależności między zmiennymi nasz [[model]] ma postać: | ||
Linia 26: | Linia 12: | ||
* '''Y''' to [[zmienna]] zależna (również nazywana zmienną objaśnianą), której wartości chcemy wyjaśnić albo przewidzieć | * '''Y''' to [[zmienna]] zależna (również nazywana zmienną objaśnianą), której wartości chcemy wyjaśnić albo przewidzieć | ||
* '''X''' to zmienną niezależną (inaczej zmienną objaśniającą) nazywaną jest również predyktorem, zakładamy, że zmienna ta nie jest zdegenerowana do stałej. W przeciwnym razie nie byłoby sensu rozważać problemu regresji. | * '''X''' to zmienną niezależną (inaczej zmienną objaśniającą) nazywaną jest również predyktorem, zakładamy, że zmienna ta nie jest zdegenerowana do stałej. W przeciwnym razie nie byłoby sensu rozważać problemu regresji. | ||
* '''ε''' to błęd losowym (inaczej zakłóceniem, szumem), jedynym źródłem losowości | * '''ε''' to błęd losowym (inaczej zakłóceniem, szumem), jedynym źródłem losowości | ||
* '''β<sub>0</sub>''' to wyraz wolny będący punktem przecięcia linii '''Y = β<sub>0</sub> + β<sub>1</sub>X''' z osią rzędnych. | * '''β<sub>0</sub>''' to wyraz wolny będący punktem przecięcia linii '''Y = β<sub>0</sub> + β<sub>1</sub>X''' z osią rzędnych. | ||
* '''β<sub>1</sub>''' to współczynnik kierunkowym, czyli tangensem kąta pod którym linia '''Y = β<sub>o</sub>+ β<sub>1</sub>X''' nachylona jest do osi odciętych (Maciej Kostrzewski 2020, s. 1-2) | * '''β<sub>1</sub>''' to współczynnik kierunkowym, czyli tangensem kąta pod którym linia '''Y = β<sub>o</sub>+ β<sub>1</sub>X''' nachylona jest do osi odciętych (Maciej Kostrzewski 2020, s. 1-2) | ||
==Postulat Gaussa== | ==Postulat Gaussa== | ||
"Wykonując '''n''' pomiarów wielkości '''x''' i '''y''' będących w zależności liniowej | |||
<font size = '3'> '''y = ax+b''' </font> uzyskujemy '''n''' par liczb (x<sub>i</sub> , y<sub>i</sub> ) i graficznym obrazem są punkty rozrzucone na pewnym obszarze, niekoniecznie na linii prostej. | <font size = '3'> '''y = ax+b''' </font> uzyskujemy '''n''' par liczb (x<sub>i</sub> , y<sub>i</sub> ) i graficznym obrazem są punkty rozrzucone na pewnym obszarze, niekoniecznie na linii prostej. | ||
Rozbieżność wyniku pomiaru '''y<sub>i</sub>''' i wartości teoretycznej '''y''' z równania <font size = '3'> '''y = ax+b''' </font> | Rozbieżność wyniku pomiaru '''y<sub>i</sub>''' i wartości teoretycznej '''y''' z równania <font size = '3'> '''y = ax+b''' </font> | ||
wynika z niepewności pomiarowej i można zapisać w postaci: '''y<sub>i</sub> | wynika z niepewności pomiarowej i można zapisać w postaci: '''y<sub>i</sub> - y = y<sub>i</sub> - (ax<sub>i</sub> + b)''' dopasowanie metodą regresji liniowej oznacza, że: | ||
<math>\sum_{i=1}^n (y_i - (\bar a x_i+ \bar b ))^2 = min </math> | <math>\sum_{i=1}^n (y_i - (\bar a x_i+ \bar b ))^2 = min </math> | ||
Regresja liniowa polega na znalezieniu parametrów '''a''' i '''b''' prostej '''y = ax + b''' takich aby spełniały postulat Gaussa, gdzie '''a''' i '''b''' współczynniki regresji liniowej tj. aby suma kwadratów różnic między wartościami zmierzonymi yi i obliczonymi y była jak najmniejsza (przy założeniu, że wszystkie punkty pomiarowe obarczone są jednakowymi niepewnościami przypadkowymi o rozkładzie Gaussa) | Regresja liniowa polega na znalezieniu parametrów '''a''' i '''b''' prostej '''y = ax + b''' takich aby spełniały postulat Gaussa, gdzie '''a''' i '''b''' współczynniki regresji liniowej tj. aby suma kwadratów różnic między wartościami zmierzonymi yi i obliczonymi y była jak najmniejsza (przy założeniu, że wszystkie punkty pomiarowe obarczone są jednakowymi niepewnościami przypadkowymi o rozkładzie Gaussa)" (Tadeusz M. Molenda 2020, s. 5-7) | ||
== Metoda najmniejszych kwadratów== | <google>n</google> | ||
==Metoda najmniejszych kwadratów== | |||
Jeżeli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa to regresja liniowa jest prostą metodą wyznaczenia parametrów, najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć nam do wyznaczenia szukanej wielkości fizycznej. Parametry prostej, która jest określona równaniem y = ax + b możemy wyznaczyć przy użyciu wzorów: | Jeżeli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa to regresja liniowa jest prostą metodą wyznaczenia parametrów, najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć nam do wyznaczenia szukanej wielkości fizycznej. Parametry prostej, która jest określona równaniem y = ax + b możemy wyznaczyć przy użyciu wzorów: | ||
<math> a=\frac{n\sum_{} x_i y_i - \sum_{} x_i \sum_{} y_i}{n\sum_{}x_i^2-(\sum_{} x_i)^2} | <math> a=\frac{n\sum_{} x_i y_i - \sum_{} x_i \sum_{} y_i}{n\sum_{}x_i^2-(\sum_{} x_i)^2} b=\frac{1}{n}( \sum_{} y_i - a\sum_{}x_i)</math> | ||
Gdzie: | Gdzie: | ||
Linia 50: | Linia 37: | ||
Błędy wyznaczonych wartości a i b określone są wzorami: | Błędy wyznaczonych wartości a i b określone są wzorami: | ||
<math> S_a=\sqrt{\frac{n [\sum_{} y_i^2-a\sum_{}x_iy_i-b\sum_{}y_i]}{(n-2)[n\sum_{}x_i^2-(\sum_{}x_i)^2]}} | <math> S_a=\sqrt{\frac{n [\sum_{} y_i^2-a\sum_{}x_iy_i-b\sum_{}y_i]}{(n-2)[n\sum_{}x_i^2-(\sum_{}x_i)^2]}} | ||
S_b=\sqrt{\frac{1}{2}S_a^2 \sum_{} x_i^2} </math> | S_b=\sqrt{\frac{1}{2}S_a^2 \sum_{} x_i^2} </math> | ||
(Teresa Lewkowicz 2020, s. 1) | |||
==Regresja Wieroraka== | ==Regresja Wieroraka== | ||
W regresji wielorakiej uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz | W regresji wielorakiej uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz | ||
układem '''k''' cech X<sub>1</sub>, X<sub>2</sub>, . . ., X<sub>k</sub>. Model regresji wielokrotnej można | układem '''k''' cech X<sub>1</sub>, X<sub>2</sub>,. . ., X<sub>k</sub>. Model regresji wielokrotnej można | ||
zapisać w postaci: | zapisać w postaci: | ||
'''Y = Xβ + ε''', | '''Y = Xβ + ε''', | ||
Gdzie | Gdzie | ||
* '''Y''' jest wektorem obserwacji zmiennej objaśnianej, | * '''Y''' jest wektorem obserwacji zmiennej objaśnianej, | ||
* '''X''' jest macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu). | * '''X''' jest macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu). | ||
Linia 71: | Linia 58: | ||
modelu regresji mają dodatnie wartości parametrów regresji. | modelu regresji mają dodatnie wartości parametrów regresji. | ||
Destymulanty to zmienne o ujemnych parametrach. Możemy jeszcze | Destymulanty to zmienne o ujemnych parametrach. Możemy jeszcze | ||
określić zmienne, które są neutralne (nieistotne), czyli takie, które nie mają żadnego wpływu na badane zjawisko | określić zmienne, które są neutralne (nieistotne), czyli takie, które nie mają żadnego wpływu na badane zjawisko (Tomasz Górecki 2020, s. 34-37) | ||
{{infobox5|list1={{i5link|a=[[Estymator obciążony]]}} — {{i5link|a=[[Błąd bezwzględny]]}} — {{i5link|a=[[Analiza regresji]]}} — {{i5link|a=[[Metody statystyczne]]}} — {{i5link|a=[[Estymacja]]}} — {{i5link|a=[[Współczynnik korelacji rang Spearmana]]}} — {{i5link|a=[[Rozkład normalny]]}} — {{i5link|a=[[Test zgodności chi-kwadrat]]}} — {{i5link|a=[[Rozstęp]]}} }} | |||
==Bibliografia== | ==Bibliografia== | ||
* Bernardelli M | <noautolinks> | ||
* Górecki T | * Bernardelli M. (2012), ''[https://rocznikikae.sgh.waw.pl/p/roczniki_kae_z27_04.pdf Metoda szybkiej aktualizacjidekompozycji QR dla modeli liniowej regresji]'', Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie | ||
* Hellwig Z | * Górecki T. (2020), ''Analiza Danych W4'', Collegium Mathematicum Uniwersytetu Poznańskiego | ||
* Kostrzewski M | * Hellwig Z. (1963), ''Regresja liniowa i jej zastosowanie w ekonomii'', Państwowe Wydawnictwo Ekonomiczne, Warszawa | ||
* Lewkowicz T | * Kostrzewski M. (2020), ''[https://home.agh.edu.pl/~kostrzew/Regresja1.pdf Regresja]'', Wydział Matematyki Stosowanej Akademii Górniczo-Hutniczej im. Stanisława Staszica w Krakowie | ||
* Molenda T | * Lewkowicz T. (2020), ''Regresja Liniowa'', Politechnika Wrocławska | ||
* Molenda T. (2020), ''[https://dydfiz.univ.szczecin.pl/plik/Regresja_liniowa_MNK.pdf Regresja linowa metoda najmniejszych kwadratów]'', Instytut Fizyki US | |||
</noautolinks> | |||
[[Kategoria:Statystyka | [[Kategoria:Statystyka]] | ||
{{a|Barbara Treśka}}. | {{a|Barbara Treśka}}. | ||
{{#metamaster:description|Regresja liniowa - podstawowa technika modelowania ekonometrycznego. Szybkie, chociaż mniej dokładne przybliżenie danych. Analizuje relacje między zmiennymi numerycznymi poprzez zależność liniową.}} | {{#metamaster:description|Regresja liniowa - podstawowa technika modelowania ekonometrycznego. Szybkie, chociaż mniej dokładne przybliżenie danych. Analizuje relacje między zmiennymi numerycznymi poprzez zależność liniową.}} |
Aktualna wersja na dzień 23:23, 9 sty 2024
Regresja liniowa - jest jedną z podstawowych technik wchodzących w skład modelowania ekonometrycznego. Regresja liniowa stanowi pierwsze przybliżenie analizowanych danych. Jednakże jest ono w wielu przypadkach mało dokładne, ale lecz szybkie (Michał Bernardelli 2012, s. 55). Wykorzystywana jest do analizowania relacji między zmiennymi numerycznymi. Zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową.
TL;DR
Regresja liniowa to podstawowa technika w modelowaniu ekonometrycznym, która analizuje relacje między zmiennymi numerycznymi. Model regresji liniowej opisuje zależność między zmienną zależną a zmienną niezależną. Metoda najmniejszych kwadratów służy do znalezienia najlepiej dopasowanej prostej. Regresja wieloraka uwzględnia wpływ wielu cech niezależnych na zmienną zależną.
Model Regresji liniowej
Przyjmując założenie o liniowej zależności między zmiennymi nasz model ma postać:
y = β0 + β1X + ε
Gdzie:
- Y to zmienna zależna (również nazywana zmienną objaśnianą), której wartości chcemy wyjaśnić albo przewidzieć
- X to zmienną niezależną (inaczej zmienną objaśniającą) nazywaną jest również predyktorem, zakładamy, że zmienna ta nie jest zdegenerowana do stałej. W przeciwnym razie nie byłoby sensu rozważać problemu regresji.
- ε to błęd losowym (inaczej zakłóceniem, szumem), jedynym źródłem losowości
- β0 to wyraz wolny będący punktem przecięcia linii Y = β0 + β1X z osią rzędnych.
- β1 to współczynnik kierunkowym, czyli tangensem kąta pod którym linia Y = βo+ β1X nachylona jest do osi odciętych (Maciej Kostrzewski 2020, s. 1-2)
Postulat Gaussa
"Wykonując n pomiarów wielkości x i y będących w zależności liniowej y = ax+b uzyskujemy n par liczb (xi , yi ) i graficznym obrazem są punkty rozrzucone na pewnym obszarze, niekoniecznie na linii prostej. Rozbieżność wyniku pomiaru yi i wartości teoretycznej y z równania y = ax+b wynika z niepewności pomiarowej i można zapisać w postaci: yi - y = yi - (axi + b) dopasowanie metodą regresji liniowej oznacza, że:
Regresja liniowa polega na znalezieniu parametrów a i b prostej y = ax + b takich aby spełniały postulat Gaussa, gdzie a i b współczynniki regresji liniowej tj. aby suma kwadratów różnic między wartościami zmierzonymi yi i obliczonymi y była jak najmniejsza (przy założeniu, że wszystkie punkty pomiarowe obarczone są jednakowymi niepewnościami przypadkowymi o rozkładzie Gaussa)" (Tadeusz M. Molenda 2020, s. 5-7)
Metoda najmniejszych kwadratów
Jeżeli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa to regresja liniowa jest prostą metodą wyznaczenia parametrów, najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć nam do wyznaczenia szukanej wielkości fizycznej. Parametry prostej, która jest określona równaniem y = ax + b możemy wyznaczyć przy użyciu wzorów:
Gdzie:
- xi, yi jest wartością doświadczalną,
- n jest liczbą wykonanych pomiarów.
Błędy wyznaczonych wartości a i b określone są wzorami:
(Teresa Lewkowicz 2020, s. 1)
Regresja Wieroraka
W regresji wielorakiej uwzględnia się wpływ wielu cech niezależnych na wybraną cechę zależną. Załóżmy, że dysponujemy teraz układem k cech X1, X2,. . ., Xk. Model regresji wielokrotnej można zapisać w postaci: Y = Xβ + ε,
Gdzie
- Y jest wektorem obserwacji zmiennej objaśnianej,
- X jest macierzą z pomiarami zmiennych objaśniających (pierwsza kolumna to kolumna jedynek odpowiadająca za wyraz wolny w modelu).
W celu estymacji parametrów modelu używamy Metody Najmniejszych Kwadratów otrzymując:
Bardzo często w przypadku wykorzystania regresji wielorakiej naszego największego zainteresowania nie budzi prognoza, lecz interesuje nas, które zmienne wpływają na badane przez nas zjawisko w sposób pobudzający, a które je hamują. Zmienne, które wpływają na badane zjawisko nazywamy stymulantami, natomiast te, które je hamują nazywane sądestymulantami. Stymulantami są zmienne, które w oszacowanym modelu regresji mają dodatnie wartości parametrów regresji. Destymulanty to zmienne o ujemnych parametrach. Możemy jeszcze określić zmienne, które są neutralne (nieistotne), czyli takie, które nie mają żadnego wpływu na badane zjawisko (Tomasz Górecki 2020, s. 34-37)
Regresja liniowa — artykuły polecane |
Estymator obciążony — Błąd bezwzględny — Analiza regresji — Metody statystyczne — Estymacja — Współczynnik korelacji rang Spearmana — Rozkład normalny — Test zgodności chi-kwadrat — Rozstęp |
Bibliografia
- Bernardelli M. (2012), Metoda szybkiej aktualizacjidekompozycji QR dla modeli liniowej regresji, Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie
- Górecki T. (2020), Analiza Danych W4, Collegium Mathematicum Uniwersytetu Poznańskiego
- Hellwig Z. (1963), Regresja liniowa i jej zastosowanie w ekonomii, Państwowe Wydawnictwo Ekonomiczne, Warszawa
- Kostrzewski M. (2020), Regresja, Wydział Matematyki Stosowanej Akademii Górniczo-Hutniczej im. Stanisława Staszica w Krakowie
- Lewkowicz T. (2020), Regresja Liniowa, Politechnika Wrocławska
- Molenda T. (2020), Regresja linowa metoda najmniejszych kwadratów, Instytut Fizyki US
Autor: Barbara Treśka
.