Współczynnik determinacji R²: co to jest i jak go interpretować?

Tekst przeczytasz w:  3 minuty

Współczynnik determinacji, oznaczany jako R² (R-kwadrat), jest jednym z najczęściej używanych narzędzi statystycznych do oceny modelu. Oferuje on miarę tego, jak dobrze testowany model dopasowuje się do danych. W tym artykule przyjrzymy się, czym dokładnie jest współczynnik R² i jaką rolę odgrywa w analizie danych.

Czym jest współczynnik R²?

Współczynnik determinacji R² z matematycznego punktu widzenia jest po prostu wartością współczynnika korelacji r-Pearsona podniesioną do kwadratu. Z tego powodu współczynnik R² przyjmuje wartości od 0 do 1. Z łatwością można też wyliczyć jego wartości procentowe, przemnażając wynik przez 100%, np. R² = 0,55 = 55%.

Wartość R² mówi nam o tym, jaki procent zmienności zmiennej zależnej jest wyjaśniany za pomocą zmienności zmiennej niezależnej. Zobaczmy to na prostym przykładzie (rys. 1). Diagram przedstawia model regresji, w którym analizowane są trzy zmienne: poczucie szczęścia (zmienna zależna), liczba bliskich relacji społecznych oraz zaangażowanie w działalność społeczną (zmienne niezależne).

 

Rys. 1. Przykładowa zależność między zmiennymi niezależnymi a zmienną zależną w analizie regresji.

 

Poczucie szczęścia w znacznym stopniu wyjaśniane jest przez liczbę bliskich relacji społecznych (pole a) oraz w nieco mniejszym przez zaangażowanie w działalność społeczną (pole b). Pomiędzy tymi dwiema zmiennymi niezależnymi występuje też pewna współliniowość (pole c). 

Załóżmy, że wartość współczynnika determinacji tego modelu wynosi R² = 0,42. Cały ten model wyjaśnia około 42% wariancji wyników poczucia szczęścia (reprezentowane przez zacieniowane pola). Istnieje zatem jeszcze 58% wariancji, która wyjaśniana jest przez jakieś inne zmienne.

 

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

ST 1. Podstawy statystyki dla każdego

Interpretacja wartości współczynnika determinacji R²

Wartość współczynnika determinacji interpretujemy w następujący sposób:

  • R² = 1: Model idealnie dopasowuje się do danych. Wszystkie punkty danych leżą na linii regresji.
  • R² = 0: Model nie wyjaśnia żadnej zmienności zmiennej zależnej. Wszystkie przewidywania są równe średniej wartości zmiennej zależnej.
  • 0 < R² < 1: Część zmienności jest wyjaśniona przez model, ale istnieje także zmienność niewyjaśniona. Im bliżej 1, tym lepsze dopasowanie modelu do danych.

Warto jednak zauważyć, że wysoka wartość R² nie zawsze oznacza, że model jest dobry. R² mówi nam tylko o dopasowaniu modelu do danych, ale nie informuje o tym, czy model jest prawidłowy pod względem merytorycznym, czy zmienne niezależne rzeczywiście wpływają na zmienną zależną w sposób przyczynowy. R² nie pozwala również na ocenę jakości modelu. O podstawowych założeniach wraz z przykładami możesz przeczytać w artykule o współczynniku r-Pearsona.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy

PS IMAGO PRO

Ograniczenia Współczynnika R²

Współczynnik R² ma jednak swoje ograniczenia. Jednym z głównych jest to, że nie uwzględnia on liczby zmiennych w modelu. Dodawanie kolejnych zmiennych do modelu zawsze zwiększa R², nawet jeśli te zmienne nie mają rzeczywistego wpływu na zmienną zależną. W takich przypadkach lepiej jest korzystać z tzw. skorygowanego współczynnika R², który bierze pod uwagę liczbę zmiennych i karze za nadmierne skomplikowanie modelu.

Ponadto R² nie mówi nic o błędach pomiarowych ani o rozkładzie reszt. Dlatego, zanim uznamy model za dobry, warto przeanalizować także inne wskaźniki, takie jak średni kwadrat błędu (MSE), testy statystyczne czy wykresy reszt.

W realnym świecie zawsze mamy do czynienia z pewnym stopniem zmienności, który nie jest wyjaśniany przez nasz model – to efekt wpływu innych, niezidentyfikowanych czynników. Dlatego tak ważne jest, by nie traktować R² jako jedynego wskaźnika do oceny modelu, ale raczej jako jedno z wielu narzędzi, które pomagają nam zrozumieć nasze dane.

Podsumowanie

Współczynnik determinacji R² to nieocenione narzędzie w analizie danych, które pozwala szybko i efektywnie ocenić, jak dobrze nasz model przewiduje wyniki. Ale Należy jednak pamiętać, że – nawet jeśli R² wygląda imponująco, zawsze warto spojrzeć głębiej i zastanowić się nad innymi możliwymi czynnikami, które mogą wpływać na Twoje dane. W końcu analiza danych to nie tylko liczby, ale także zrozumienie, co naprawdę za tymi liczbami się kryje.


Udostępnij artykuł w social mediach:


Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe