Regresja logistyczna

Tekst przeczytasz w:  6 minut

Regresja służy do przewidywania wartości zmiennej zależnej (przewidywanej) na podstawie wartości zmiennej lub zmiennych niezależnych (predyktorów).

Regresja służy do przewidywania wartości zmiennej zależnej (przewidywanej) na podstawie wartości zmiennej lub zmiennych niezależnych (predyktorów). W praktyce najprostszym i najczęściej stosowanym typem regresji jest model regresji liniowej, którego parametry szacujemy wykorzystując Metodę Najmniejszych Kwadratów. Jednak regresja liniowa służy tylko do przewidywania zmiennej ciągłej, co natomiast w przypadku, gdy chcemy przewidywać zmienną przyjmującą tylko dwie wartości?

Chcesz wiedzieć więcej?

Zapraszamy na szkolenie ST 1. Podstawy statystyki dla każdego

Analityk nie rzadko będzie stawał przed wyzwaniem przewidywania różnych zdarzeń, np. czy dana osoba spłaci zaciągnięty kredyt, czy klient zrezygnuje z usług danej firmy lub czy wiadomość email jest spamem, czy też nie. Zdarzenie które chcemy przewidywać (zmienna zależna) jest zdarzeniem zero-jedynkowym – coś wystąpi lub nie. Rozwiązaniem dla analityka w takich sytuacjach będzie wykorzystanie regresji logistycznej, w której zmienna zależna przyjmuje tylko dwie wartości.

Jak rozumieć prawdopodobieństwo i szansę?

Regresja logistyczna jest techniką opartą o prawdopodobieństwo i szansę wystąpienia danego zdarzenia. Prawdopodobieństwo i szansa w statystyce to dwa różne pojęcia i trzeba zrozumieć różnicę pomiędzy nimi, aby w poprawny sposób wykorzystywać model regresji logistycznej w analizach.

Prawdopodobieństwo wskazuje na pewność wystąpienia zjawiska. Obliczane jest na podstawie częstości występowania danego zdarzenia wśród wszystkich zdarzeń możliwych. Przyjmuje wartości od 0 do 1. Szansa natomiast (inaczej odds), to stosunek prawdopodobieństwa wystąpienia danego zdarzenia do pewności wystąpienia zdarzenia odwrotnego tj. iloraz prawdopodobieństwa wystąpienia danego zdarzenia i jego niewystąpienia pi. Szansa podobnie jak prawdopodobieństwo, przyjmuje wartości od 0, ale już bez ograniczenia do 1. Wartość szansy równa 1 oznacza, że tak samo prawdopodobne jest wystąpienie jak i niewystąpienie zdarzenia. Przyjmuje wartości do nieskończoności, a co za tym idzie, jej rozkład charakteryzuje się dużą asymetrią. Żeby otrzymać miarę o symetrycznym rozkładzie stosujemy logarytm naturalny z szansy, tzw. logit, przyjmujący wartości zarówno dodatnie jak i ujemne i dający podstawy do zastosowania funkcji logistycznej.

Li

Funkcja regresji logistycznej

Wykres 1. Funkcja regresji logistycznej

Prosta postać modelu regresji logistycznej z jedną zmienną wyjaśniającą wygląda więc następująco:

ln

gdzie:

– logarytm naturalny szansy,

a – wyraz wolny,

b – współczynnik regresji logistycznej,

x – zmienna objaśniająca

Model regresji logistycznej (w odróżnieniu od liniowej) nie służy objaśnieniu samej zmiennej zależnej, ale określeniu prawdopodobieństwa wystąpienia zdarzenia (przyjęcia przez zmienną zależną wartości „1”). Wynikiem regresji logistycznej będzie więc określenie, czy zmiana wartości zmiennej objaśniającej przewiduje mniejsze, czy większe prawdopodobieństwo wystąpienia danego zdarzenia.

Chcesz wiedzieć więcej?

Zapraszamy na szkolenie ST 2. Budowanie modeli predykcyjnych z użyciem klasycznych technik statystycznych

Zmienne niezależne w modelu regresji logistycznej

Zmiennymi niezależnymi w modelu regresji logistycznej mogą być zarówno zmienne ilościowe, jak i jakościowe. Jednak w przypadku włączania do modelu zmiennych jakościowych konieczne jest jej odpowiednie „potraktowanie”. Taką zmienną należy odpowiednio zakodować – np. kobietom przypisujemy wartość „0”, a mężczyznom „1”. Następnie należy zdecydować, która kategoria zmiennej jakościowej będzie naszym punktem odniesienia – czy interesuje nas interpretacja wyników dla mężczyzn w porównaniu do kobiet czy na odwrót. Gdyby zmienna jakościowa miała więcej niż dwie kategorie to również należy wskazać, która z kategorii będzie naszą kategorią odniesienia w analizie.

Założenia regresji logistycznej

Zanim przejdziemy do analizy regresji logistycznej, tak jak w przypadku każdej techniki statystycznej należy sprawdzić, czy spełnione są jej założenia. Regresja logistyczna ma stosunkowo mało założeń w porównaniu do regresji wielorakiej. Oto kilka z nich:

  • Binarna postać zmiennej zależnej,
  • Brak korelacji pomiędzy zmiennymi niezależnymi,
  • Liniowa zależność pomiędzy logitem prawdopodobieństwa, a zmiennymi niezależnymi, (logarytm naturalny szansy jest liniowo zależny od zmiennej objaśniającej),
  • Uwzględnienie w modelu tylko tych zmiennych niezależnych, które mają istotny wpływ na zmienną zależną.

Przykład praktycznego wykorzystania regresji logistycznej

Przyjrzymy się teraz możliwości wykorzystania modelu regresji logistycznej do przewidywania czy dana osoba przedłuży umowę z dostawcą usług telekomunikacyjnych. Przykład wykorzystania regresji logistycznej został przygotowany w PS IMAGO PRO.

Zmienną zależną w analizie jest zmienna określająca, czy osoba przedłużyła umowę dotyczącą usług telekomunikacyjnych z pewną firmą („1” – przedłuży, „0” – nie przedłuży). Na podstawie tabeli częstości możemy zauważyć, że łącznie w zbiorze danych jest 200 osób. Umowę przedłużyło 95 osób co stanowi 47,5 % wszystkich osób posiadających umowę u danego usługodawcy.

Tabela częstości zmiennej dotyczącej przedłużenia umowy

Tabela 1. Tabela częstości zmiennej dotyczącej przedłużenia umowy

Zmienne, które będziemy chcieli wprowadzić do analizy jako predyktory to: płeć, wiek oraz zmienna informująca o tym, czy abonent przy podpisywaniu ostatniej umowy otrzymał telefon w cenie usługi.

Po wprowadzenie zmiennej zależnej i predyktorów do procedury regresji logistycznej w PS IMAGO PRO otrzymujemy wyniki podzielone na dwa bloki. W pierwszym z nich otrzymujemy statystyki dla modelu zawierającego wyłącznie stałą, natomiast w drugim już dla modelu z wprowadzonymi predyktorami. Tabele klasyfikacji otrzymane w wynikach wskazują na procent poprawnych klasyfikacji przypadków na podstawie danego modelu (zestawienie częstości obserwowanych z przewidywanymi).

Tabela klasyfikacji dla modelu regresji logistycznej jedynie ze stałą, bez predyktorów

Tabela 2. Tabela klasyfikacji dla modelu regresji logistycznej
jedynie ze stałą, bez predyktorów

Na podstawie tabeli (tab. 2) widzimy, że jeśli w analizie uwzględniona zostanie jedynie stała, to model przewidzi poprawnie około 53% przypadków (procent poprawnych klasyfikacji ogółem). Jest to wynik niewiele lepszy od rzutu monetą, jeśli byśmy chcieli w ten sposób przewidywać odejście bądź przedłużenie przez klienta umowy.

Tabela klasyfikacji dla modelu regresji logistycznej ze stałą i wprowadzonymi predyktorami

Tabela 3. Tabela klasyfikacji dla modelu regresji logistycznej
ze stałą i wprowadzonymi predyktorami

Po włączeniu predyktorów do analizy model lepiej radzi sobie z klasyfikacją przypadków. Procent poprawnych klasyfikacji wzrósł z ok 53% do prawie 69%. Model poprawnie zidentyfikował 66 z 95 osób (69,5%), które przedłużyły umowę z dostawcą. Pomylił się w przypadku 29 osób. I analogicznie w przypadku osób, które nie przedłużyły umowy – model poprawnie sklasyfikował 71 z 105 przypadków (67,6%).

Statystykami wskazującymi na dobroć dopasowania będą statystyka -2 logarytm wiarygodności, R-kwadrat Coxa i Snella oraz R-kwadrat Nagelkerkego przedstawione w tabeli poniżej.

Podsumowanie modelu

Tabela 4. Podsumowanie modelu

Statystyka -2 logarytm wiarygodności informuje o tym, jak duża jest różnica pomiędzy modelem zawierającym tylko stałą, a modelem z włączonymi predyktorami. Im wyższa wartość tej statystyki, tym większa rozbieżność pomiędzy modelami (czyli słusznie wprowadzono predyktory do modelu).

Statystyki przedstawione w tabeli Model – podsumowanie, przyjmują wartości od 0 do 0,75 (Coxa i Snella) i 1 (Nagelkerkiego). Są to miary naśladujące R-kwadrat znany z regresji liniowej, często nazywane pseudo R-kwadrat. Interpretacja tych wartości jest analogiczna do R-kwadrat znanego z regresji liniowej.

Na koniec przyjrzyjmy się tabeli przedstawiającej zmienne włączone do modelu wraz z ich poziomami istotności[1]. Na podstawie kolumny zawierającej istotności można zauważyć, że nie wszystkie zmienne zawarte w modelu są istotnymi predyktorami przedłużenia umowy. Zmienna informująca o tym, czy dana osoba przy podpisywaniu ostatniej umowy otrzymała telefon w cenie usług nie jest istotna statystycznie (istotność > 0,05).

Parametry modelu regresji logistycznej przewidującej przedłużenie umowy dot. usług telekomunikacyjnych

Tabela 5. Parametry modelu regresji logistycznej przewidującej
przedłużenie umowy dot. usług telekomunikacyjnych

Zastanówmy się nad tym, co oznacza ujemny współczynnik B przy zmiennej płeć? W naszym przykładzie mężczyźni zostali oznaczeni wartością „1”, a kobiety „0”. Analizujemy mężczyzn w porównaniu do kobiet. Ujemny współczynnik B oznacza tu, że szansa na przedłużenie umowy przez mężczyznę jest mniejsza niż szansa przedłużenia jej przez kobietę.

Jeśli chcemy się dowiedzieć, o ile mniejsza jest ta szansa to odnosimy się do wartości ilorazu szans przedstawionego w ostatniej kolumnie tabeli - Exp(B). Iloraz szans w regresji logistycznej jest pojęciem kluczowym w kontekście interpretacji wyników. Określa zmianę szansy wystąpienia wartości danej zmiennej objaśnianej, gdy zmienna objaśniająca wzrośnie o 1 jednostkę, przy założeniu, że reszta zmiennych niezależnych pozostaje na stałym poziomie. Iloraz szans e obliczamy jako stosunek szans wystąpienia danego zdarzenia w dwóch grupach. Ze względu na przyjmowane wartości interpretowany jest następująco:

  • 6 – ujemny wpływ zmiennej na wystąpienie danego zdarzenia,
  • – brak wpływu zmiennej na wystąpienie danego zdarzenia,
  • – dodatni wpływ na wystąpienie zdarzenia.

Wartość ilorazu szans dla zmiennej płeć wynosi 0,202 i informuje nas, że szansa przedłużenia umowy przez mężczyzn w porównaniu do kobiet jest o 80% mniejsza.

Wiek jest drugim istotnym predyktorem służącym do przewidywania przedłużenia umowy. Wartość współczynnika B dla wieku wynosi 0,057, natomiast iloraz szans wynosi 1,059 co oznacza, że wraz ze wzrostem wieku osoby o 1 rok szansa na przedłużenie umowy będzie wzrastać 1,059 raza.

Na koniec przyjrzyjmy się tabeli klasyfikacji dla modelu regresji logistycznej ze stałą i wprowadzonymi predyktorami wiek oraz płeć (wyłączono nieistotną zmienną telefon). Zauważmy, że wyłączenie nieistotnej zmiennej z analizy poskutkowało wzrostem procenta poprawnych klasyfikacji do ok 71%.

mapka

Tabela 6. Tabela klasyfikacji dla modelu regresji logistycznej
ze stałą i wprowadzonymi predyktorami wiek oraz płeć

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy

PS IMAGO PRO

Podsumowanie

Analiza regresji logistycznej to technika statystyczna, którą możemy wykorzystywać w wielu obszarach naukowych oraz biznesowych. Zmienną zależną w modelu regresji logistycznej jest zmienna binarna, natomiast predyktorami mogą być zarówno zmienne ciągłe, jak i kategorialne.

Regresja logistyczna pozwala na ocenę wpływu wielu zmiennych niezależnych na szansę wystąpienia danego zdarzenia. Powszechnie jest ona wykorzystywana w medycynie np. do identyfikacji czynników ryzyka wystąpienia powikłań pooperacyjnych, wystąpienia pewnej jednostki chorobowej czy w bankowości – do szacowania ryzyka kredytowego itp.

[1] Poziom istotności poniżej którego przyjęto, że predyktory są istotne statycznie ustalono na wartość 0,05.


Udostępnij artykuł w social mediach:


Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe