Analiza regresji liniowej

Tekst przeczytasz w: 5 minut.
Główną ideą regresji jest przewidywanie wartości zmiennej zależnej (inaczej też określanej jako przewidywana, wyjaśniana) na podstawie jednej lub większej liczby zmiennych niezależnych (tzw. predykatorów, zmiennych wyjaśniających).

Sprawdź również:

Najprostszą formą regresji jest prosta regresja liniowa, która zakłada użycie tylko jednego predyktora do wyjaśniania zmiennej zależnej. Warto jednak zaznaczyć, że istnieje bardzie wiele technik regresyjnych, które pozwalają na konstruowanie bardzo złożonych modeli, które można zastosować w biznesie, ale również w innych obszarach np. produkcji, w przewidywaniu pogody, handlu, służbie zdrowia czy też w rolnictwie. Jako przykład można wskazać prognozowanie wartości samochodu, bazując na pojemności silnika, jego przebiegu oraz liczby lat jego użytkowania. Innym przykładem może być model regresji liniowej, w którym chcemy przewidywać wysokość zaraobków na podstawie takich predyktorów jak liczby lat nauki, poziomu inteligencji, kapitału społecznego czy też wykształcenia rodziców. Oczywiście ilość praktycznych zastosowań jest o wiele, wiele większa. Ogranicza nas tylko wyobraźnia i konieczność trzymania się kilku założeń (przybliżę je poniżej).

 

Co to jest analiza regresji?

Analityk przygotowuje tzw. model regresji aby móc odpowiedzieć na pytanie jaką wartość przyjmie dana zmienna, gdy będziemy znali wartość innej zmiennej. Używając bardziej naukowej definicji, regresję możemy określić jako technikę statystyczną pozwalającą na opisanie współzmienności kilku zmiennych przez dopasowanie do nich funkcji. W analizie regresji możemy wyróżnić dwa główne cele: zbadanie wielkości i struktury związku między zmiennymi (1) oraz przewidywanie wartości jednej zmiennej na podstawie relacji z inną zmienną bądź zestawem zmiennych (2).

Chcesz wiedzieć więcej? Zapraszamy na szkolenia

 

ST 1. Podstawy statystyki dla każdego

ST 2. Budowanie modeli predykcyjnych z użyciem klasycznych technik statystycznych

 

Równanie prostej regresji liniowej

Równanie dla prostej regresji liniowej jest zbliżone do równania funkcji liniowej. Wzór na regresję liniową możemy zapisać:

gdzie:

y - zmienna zależna (zmienna wyjaśniana, przewidywana),

x -  zmienna niezależna (predyktor),

a - wyraz wolny, inaczej określany jako stała,

x  - współczynnik regresji, inaczej określany jako współczynnik kierunkowy.

 

Aby wyliczyć współczynnik regresji należy skorzystać ze wzoru:

gdzie:

b - współczynnik regresji,

xi - wyniki dla zmiennej niezależnej, kolejne obserwacje zmiennej wyjaśniającej,

yi - wyniki dla zmiennej zależnej, kolejne obserwacje zmiennej wyjaśnianej,

- średnia wartość zmiennej niezależnej,

 - średnia wartość zmiennej zależnej.

 

Wyliczenie wyrazu wolnego jest już proste. Wykorzystujemy do tego wyliczony wcześniej współczynnik regresji oraz średnią wartość dla zmiennej niezależnej i zmiennej zależnej. Wzór jest następujący:

 

Interpretacja współczynnika regresji i wyrazu wolnego

W prostej regresji liniowej wyznacza się dwa główne współczynniki. Pierwszym jest współczynnik b, czyli niestandaryzowany współczynnik regresji. Odnosząc się do linii regresji, ta miara określa kąt nachylenia linii względem osi X. Inaczej nazywana jest również współczynnikiem kierunkowym. Podstawiając wartości do wzoru na regresję liniową, współczynnik regresji określa, o ile wzrośnie lub zmaleje wartość zmiennej zależnej, jeśli wartość predyktora zmieni się o jedną jednostkę. Współczynnik b w modelu regresji liniowej jest niezbędny do prognozowania wartości zmiennej zależnej. Aby otrzymać współczynniki regresji liniowej możemy skorzystać z metody najmniejszych kwadratów (MNK). Metoda ta polega na minimalizacji sumy kwadratów odległości wszystkich punktów od szukanej prostej.

W przypadku wyrazu wolnego, ta miara dostarcza nam informacji jaką wartość może przyjąć zmienna zależna, jeśli predyktor będzie miał wartość zerową. Warto jednak zauważyć, że w takim przypadku trzeba ostrożnie interpretować wyniki. Wartość wyrazu wolnego może być ujemna, ale nie znaczy to, że zmienna niezależna może też przyjmować ujemne wartości, np. w modelu, którym przewidujemy liczbę kalorii w piwie (zmienna zależna) na podstawie zawartości alkoholu (zmienna niezależna), wartość wyrazu wolnego może być ujemna, co nie znaczy, że piwo bezalkoholowe będzie miało ujemne kalorie.

 

Założenia regresji liniowej

Regresji liniowa pozwala na użycie zmiennych ilościowych o rozkładach normalnych. Zanim jednak zostanie przeprowadzona analiza regresji, analityk powinien upewnić się, że spełnione są założenia dla tej techniki statystycznej.

Można wskazać cztery główne założenia związane z modelem regresji liniowej:

  1. Liniowość – występuje liniowa zależność między zmienną niezależną a zmienną zależną.
  2. Homoskedastyczność – wariancja reszt jest taka sama dla wszystkich obserwacji.
  3. Składnik losowy (reszty) są nieskorelowane i mają rozkład normalny.
  4. Niezależność zmiennych – żadna ze zmiennych niezależnych nie może być skorelowana z inną zmienną niezależną (dotyczy regresji wielozmiennowej).

 

Przykład prostej regresji liniowej

Przyjrzyjmy się prostemu przykładowi, w którym chcemy przewidywać ceny samochodów (zmienna zależna) na podstawie liczby lat samochodu (zmienna niezależna, predyktor). Oczywiście na cenę samochodu mogę mieć wpływ również inne zmienne, jednak na potrzeby przybliżenia czytelnikowi zagadnienia regresji liniowej posłużę się tylko jednym predyktorem. W analizie regresji liniowej, jak sama nazwa wskazuje, zakładamy, że relacja dwóch zmiennych jest relacją liniową. Przedstawiając te dane na wykresie rozrzutu widzimy, że zmienne są ze sobą ujemnie skorelowane, tj. wraz ze wzrostem lat samochodu spada jego cena[1].

 

Rysunek 1. Relacja ceny samochodu używanego do liczby lat wraz z wyznaczoną linią regresji

Rysunek 1. Relacja ceny samochodu używanego do liczby lat wraz z wyznaczoną linią regresji

 

W analizie regresji liniowej zależy nam na poprowadzeniu linii w taki sposób aby była ona jak najlepiej dopasowana do punktów, które widzimy na wykresie rozrzutu. Aby taką linię wytyczyć można skorzystać z metody najmniejszych kwadratów, która pozwala poprowadzić linię regresji najlepiej dopasowaną do zebranych danych. W tym celu obliczamy współczynnik b (współczynnik regresji) oraz wartość wyrazu wolnego a.

Po wyliczeniu tych wartości, możemy je wstawić do wzoru na prostą regresję liniową. Dla naszych danych parametry wynoszą:

  • współczynnik regresji (b) = –9860,
  • wyraz wolny (a) = 104 029.

Możemy zatem zapisać równanie regresji liniowej w następujący sposób:

Interpretując współczynnik regresji możemy powiedzieć, że wraz kolejnym rokiem samochód będzie tracił na wartości 9860 zł. W przypadku wyrazu wolnego, wartość 104 029 zł oznacza kwotę, którą należałoby zapłacić za nowy samochód.

Jeśli analityk będzie chciał przewidzieć cenę kolejnego samochodu, wystarczy do wzoru podstawić liczbę lat samochodu, dla którego chcemy przeprowadzić predykcję. Na przykład, dla samochodu, który ma 6 lat, otrzymany wynik to 44 869 zł.

 

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO

 

Podsumowanie

Analiza regresji jest ważną techniką statystyczną, którą można zastosować w wielu obszarach - nie tylko naukowych, ale również biznesowych. Pozwala określić w jakim stopniu poszczególne zmienne niezależne wpływają na zmienną zależną oraz przewidywać wartość danej zmiennej na podstawie wartość innych zmiennych. Scenariuszy zastosowania analizy regresji w celu uzyskania praktycznych informacji np. dotyczących przewidywania przyszłych wyników, określenia obszaru wymagającego poprawy czy też poszukiwania informacji potrzebnych do określenia najlepszego sposobu działania jest wiele.

[1] Warto zaznaczyć, że relacja ceny do wieku samochodu jest liniowa do pewnego stopnia, gdyż w przypadku samochodów bardzo starych, zabytkowych ich cena może rosnąć.


Oceń artykuł:

Udostępnij artykuł w social mediach



Zostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.