Najprostszą formą regresji jest prosta regresja liniowa, która zakłada użycie tylko jednego predyktora do wyjaśniania zmiennej zależnej. Warto jednak zaznaczyć, że istnieje wiele technik regresyjnych, które pozwalają na konstruowanie bardzo złożonych modeli, które można zastosować w biznesie, ale również w innych obszarach np. produkcji, w przewidywaniu pogody, handlu, służbie zdrowia czy też w rolnictwie.
Jako przykład można wskazać prognozowanie wartości samochodu, bazując na pojemności silnika, jego przebiegu oraz liczby lat jego użytkowania. Innym przykładem może być model regresji liniowej, w którym chcemy przewidywać wysokość zarobków na podstawie takich predyktorów jak liczby lat nauki, poziomu inteligencji, kapitału społecznego czy też wykształcenia rodziców. Oczywiście ilość praktycznych zastosowań jest o wiele, wiele większa. Ogranicza nas tylko wyobraźnia i konieczność trzymania się kilku założeń (przybliżę je poniżej).
Co to jest regresja?
Analityk przygotowuje tzw. model regresji, aby móc odpowiedzieć na pytanie, jaką wartość przyjmie dana zmienna, gdy będziemy znali wartość innej zmiennej. Używając bardziej naukowej definicji, regresję możemy określić jako technikę statystyczną pozwalającą na opisanie współzmienności kilku zmiennych przez dopasowanie do nich funkcji. Regresja pozwala na przewidywanie wartości jednej zmiennej (zmiennej zależnej, wyjaśnianej) na podstawie wartości jednej lub większej liczby zmiennych (zmiennych niezależnych, predyktorów, wyjaśniających). W analizie regresji możemy wyróżnić dwa główne cele: zbadanie wielkości i struktury związku między zmiennymi (1) oraz przewidywanie wartości jednej zmiennej na podstawie relacji z inną zmienną bądź zestawem zmiennych (2). Często analiza regresji jest wykorzystywana jako jeden z algorytmów stosowanych do budowania modeli predykcyjnych uczenia maszynowego.
Równanie prostej regresji liniowej
Równanie dla prostej regresji liniowej jest zbliżone do równania funkcji liniowej. Wzór na regresję liniową możemy zapisać:
gdzie:
y – zmienna zależna (zmienna wyjaśniana, przewidywana),
x – zmienna niezależna (predyktor),
a – wyraz wolny, inaczej określany jako stała,
x – współczynnik regresji, inaczej określany jako współczynnik kierunkowy.
Aby wyliczyć współczynnik regresji, należy skorzystać ze wzoru:
gdzie:
b – współczynnik regresji,
xi – wyniki dla zmiennej niezależnej, kolejne obserwacje zmiennej wyjaśniającej,
yi – wyniki dla zmiennej zależnej, kolejne obserwacje zmiennej wyjaśnianej,
– średnia wartość zmiennej niezależnej,
– średnia wartość zmiennej zależnej.
Wyliczenie wyrazu wolnego jest już proste. Wykorzystujemy do tego wyliczony wcześniej współczynnik regresji oraz średnią wartość dla zmiennej niezależnej i zmiennej zależnej. Wzór jest następujący:
Interpretacja współczynnika regresji i wyrazu wolnego
W prostej regresji liniowej wyznacza się dwa główne współczynniki. Pierwszym jest współczynnik b, czyli niestandaryzowany współczynnik regresji. Odnosząc się do linii regresji, ta miara określa kąt nachylenia linii względem osi X. Inaczej nazywana jest również współczynnikiem kierunkowym. Podstawiając wartości do wzoru na regresję liniową, współczynnik regresji określa, o ile wzrośnie lub zmaleje wartość zmiennej zależnej, jeśli wartość predyktora zmieni się o jedną jednostkę. Współczynnik b w modelu regresji liniowej jest niezbędny do prognozowania wartości zmiennej zależnej. Aby otrzymać współczynniki regresji liniowej, możemy skorzystać z metody najmniejszych kwadratów (MNK). Metoda ta polega na minimalizacji sumy kwadratów odległości wszystkich punktów od szukanej prostej.
W przypadku wyrazu wolnego ta miara dostarcza nam informacji, jaką wartość może przyjąć zmienna zależna, jeśli predyktor będzie miał wartość zerową. Warto jednak zauważyć, że w takim przypadku trzeba ostrożnie interpretować wyniki. Wartość wyrazu wolnego może być ujemna, ale nie znaczy to, że zmienna niezależna może też przyjmować ujemne wartości, np. w modelu, którym przewidujemy liczbę kalorii w piwie (zmienna zależna) na podstawie zawartości alkoholu (zmienna niezależna), wartość wyrazu wolnego może być ujemna, co nie znaczy, że piwo bezalkoholowe będzie miało ujemne kalorie.
Założenia regresji liniowej
Aby analiza regresji liniowej była poprawna, muszą być spełnione pewne założenia. Regresja liniowa pozwala na użycie zmiennych ilościowych o rozkładach normalnych. Zanim przeprowadzimy analizę regresji, analityk powinien upewnić się, że spełnione są następujące założenia:
- Liniowość – założenie liniowości oznacza, że istnieje liniowa zależność między zmienną niezależną (predyktorem) a zmienną zależną (wyjaśnianą). Oznacza to, że zmiana wartości zmiennej niezależnej o jednostkę powoduje stałą zmianę wartości zmiennej zależnej. Jeśli to założenie nie jest spełnione, model liniowy może nie być odpowiedni do opisywania zależności między zmiennymi, co prowadzi do błędnych wniosków.
- Homoskedastyczność – oznacza to, że wariancja reszt (odchylenia wartości obserwowanych od wartości przewidywanych) jest stała dla wszystkich obserwacji. W praktyce różnice między wartościami obserwowanymi a przewidywanymi są mniej więcej równe dla wszystkich poziomów zmiennej niezależnej.
- Nieskorelowane reszty i ich rozkład normalny – założenie to zakłada, że reszty są nieskorelowane (brak autokorelacji) oraz mają rozkład normalny. Nieskorelowane reszty oznaczają, że błąd jednej obserwacji nie wpływa na błąd kolejnej.
- Niezależność predyktorów – założenie to, zwane również brakiem współliniowości oznacza, że żadna ze zmiennych niezależnych nie może być silnie skorelowana z inną zmienną niezależną. W przeciwnym razie trudno jest oszacować wpływ każdej zmiennej niezależnej na zmienną zależną, co prowadzi do niestabilnych i niewiarygodnych wyników.
Spełnienie powyższych założeń jest kluczowe dla poprawnego zastosowania analizy regresji liniowej. Przeprowadzając analizę regresji, analityk powinien dokładnie sprawdzić te założenia i w razie potrzeby, zastosować odpowiednie metody korekcyjne, aby uzyskać wiarygodne i użyteczne wyniki.
Przykład prostej regresji liniowej
Korzystając z PS IMAGO PRO, analityk dysponuje wieloma procedurami, które pozwalają szybko i w prosty sposób przyjrzeć się analizowanym danym, sprawdzić wyżej wymienione założenia oraz wykonać analizę regresji. PS IMAGO PRO jako kompleksowe rozwiązanie analityczno-raportujące pozwala nie tylko na przeprowadzenie prostej regresji liniowej, ale również na budowanie bardziej złożonych modeli regresji wielorakiej, regresji porządkowej, nieliniowej lub regresji logistycznej.
W tym materiale przyjrzyjmy się prostemu przykładowi, w którym chcemy przewidywać ceny samochodów (zmienna zależna) na podstawie liczby lat samochodu (zmienna niezależna, predyktor). Oczywiście na cenę samochodu mogę mieć wpływ również inne zmienne, jednak na potrzeby przybliżenia czytelnikowi zagadnienia regresji liniowej posłużę się tylko jednym predyktorem. W analizie regresji liniowej, jak sama nazwa wskazuje, zakładamy, że relacja dwóch zmiennych jest relacją liniową. Przedstawiając te dane na wykresie rozrzutu, widzimy, że zmienne są ze sobą ujemnie skorelowane, tj. wraz ze wzrostem lat samochodu spada jego cena.
Rysunek 1. Relacja ceny samochodu używanego do liczby lat wraz z wyznaczoną linią regresji
W analizie regresji liniowej zależy nam na poprowadzeniu linii w taki sposób, aby była ona jak najlepiej dopasowana do punktów, które widzimy na wykresie rozrzutu. Aby wytyczyć taką linię, można skorzystać z metody najmniejszych kwadratów, która pozwala poprowadzić linię regresji najlepiej dopasowaną do zebranych danych. W tym celu obliczamy współczynnik b (współczynnik regresji) oraz wartość wyrazu wolnego a.
Po wyliczeniu tych wartości możemy je wstawić do wzoru na prostą regresję liniową. Dla naszych danych parametry wynoszą:
- współczynnik regresji (b) = –9860,
- wyraz wolny (a) = 104 029.
Możemy zatem zapisać równanie regresji liniowej w następujący sposób:
Interpretując współczynnik regresji, możemy powiedzieć, że wraz kolejnym rokiem samochód będzie tracił na wartości 9860 zł. W przypadku wyrazu wolnego wartość 104 029 zł oznacza kwotę, którą należałoby zapłacić za nowy samochód.
Jeśli analityk będzie chciał przewidzieć cenę kolejnego samochodu, wystarczy do wzoru podstawić liczbę lat samochodu, dla którego chcemy przeprowadzić predykcję. Na przykład, dla samochodu, który ma 6 lat, otrzymany wynik to 44 869 zł.
Korzystając z PS IMAGO PRO, analityk nie musi obliczać wszystkich parametrów modelu ręcznie, wystarczy jedynie wskazać odpowiednie zmienne do analizy i odpowiednio zinterpretować otrzymane wyniki.
Podsumowanie
Analiza regresji jest ważną techniką statystyczną, którą można zastosować w wielu obszarach – nie tylko naukowych, ale również biznesowych, gdzie częstą są wykorzystywane do budowania modeli uczenia maszynowego. Pozwala określić, w jakim stopniu poszczególne zmienne niezależne wpływają na zmienną zależną oraz przewidywać wartość danej zmiennej na podstawie wartość innych zmiennych.
Przed zastosowaniem modeli bazujących na regresji zawsze warto pamiętać o tym, aby sprawdzić założenia, ponieważ niespełnienie założeń będzie powodować, że otrzymane wyniki mogą być obarczone błędem. Scenariuszy zastosowania analizy regresji w celu uzyskania praktycznych informacji np. dotyczących przewidywania przyszłych wyników, określenia obszaru wymagającego poprawy czy też poszukiwania informacji potrzebnych do określenia najlepszego sposobu działania jest wiele. Dzięki swojej wszechstronności i prostocie regresja stanowi niezastąpione narzędzie w procesie podejmowania decyzji.