Współczynnik korelacji r-Pearsona

Tekst przeczytasz w:  4 minuty

Współczynnik korelacji r-Pearsona pozwala na określenie, czy istnieje związek liniowy między dwoma zmiennymi – jeśli tak, to pozwala określić, jaka jest jego siła oraz jaki ma on charakter tj. czy jest dodatni (pozytywna korelacja) czy ujemny (negatywna korelacja). Co to oznacza w praktyce?

Współczynnik korelacji r-Pearsona może przyjmować wartości od -1 do 1. Na podstawie wartości liczbowej, wnioskować możemy o sile związku – im wartość jest bliższa zera, tym siła związku jest słabsza. Należy jednak pamiętać, że współczynnik korelacji r-Pearsona zakłada, że charakter zależności jest liniowy. Możliwe jest zatem istnienie silnej korelacji nieliniowej, przy wartości r równej lub bliskiej 0, ale więcej o tym pod koniec artykułu.

Znak liczby pozwala na ocenę kierunku relacji – gdy wartość liczbowa jest dodatnia, oznacza to, że wraz ze wzrostem wartości jednej zmiennej rosną wartości także drugiej, natomiast wartość ujemna świadczy o tym, że wzrost wartości jednej zmiennej wiąże się ze spadkiem wartości drugiej.

 

Tabela 1. Wartości korelacji między zmiennymi wiek a częstość korzystania z Internetu

Tabela 1. Wartości korelacji między zmiennymi wiek a częstość korzystania z Internetu

 

Tabela 1. pozwala nam stwierdzić, że między zmiennymi wiek a czas spędzany w Internecie istnieje negatywna korelacja wynosząca r=-0,96. Oznacza to, że im młodsza osoba (niższy wiek), tym więcej czasu spędza w ciągu dnia na korzystaniu z Internetu.

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

ST 1. Podstawy statystyki dla każdego

 

Współczynnik korelacji r-Pearsona – interpretacja

Interpretując współczynnik korelacji r-Pearsona należy przede wszystkim zastanowić się, z jakiego rodzaju danymi mamy do czynienia. W praktyce, w środowisku naturalnym ciężko znaleźć korelacje idealne między zmiennymi, czyli takie, w których współczynnik wynosi -1 lub 1.

Porównując różne przedziały wartości bezwzględnych współczynnika r-Pearsona, stosowane do interpretowania uzyskanych wyników, możemy zauważyć, że np. przy danych nauk medycznych, z uwagi na ich charakter, interpretacja jest bardziej „rygorystyczna” niż w przypadku nauk społecznych.

Nauki społeczne:

< 0,3 korelacja słaba

0,4-0,6 korelacja umiarkowana

0,7-0,9 korelacja silna

1 korelacja idealna

 

Nauki medyczne:

< 0,2 korelacja słaba

0,3-0,5 korelacja dostateczna

0,6-0,7 korelacja umiarkowana

0,8-0,9 korelacja bardzo silna

1 korelacja idealna

Interpretacja siły związku zależy przede wszystkim od obszaru badań i charakteru badanego zjawiska. Jeszcze przed otrzymaniem wyników analiz, badacz powinien, w oparciu o swoją ekspercką wiedzę, wiedzieć, jakie wartości będą dla konkretnych danych adekwatne, aby ocenić siłę związku.

Kolejnym ważnym aspektem interpretacji współczynnika korelacji jest to, jak dalekie wnioski możemy na jego podstawie wyciągać. Patrząc na wcześniej przywołane wyniki (tab.1), możemy stwierdzić z całą pewnością, że jeśli już to wiek osoby wpływa na czas korzystania z Internetu, a nie odwrotnie. Wynika to z posiadanej przez nas, podstawowej wiedzy, że wiek nie może być zależny od ilości czasu spędzanego każdego dnia na korzystaniu z Internetu.

Współczynnik korelacji sam w sobie nie daje nam jednak odpowiedzi na pytanie o kierunek zależności, tzn. odpowiedzi na pytanie, która zmienna wpływa na którą. Możemy potwierdzić istnienie oraz kierunek korelacji, natomiast interpretacja związku przyczynowo-skutkowego zależy od posiadanej przez nas wiedzy w danej dziedzinie.

Bezkrytyczne podejście do otrzymanych wyników może skutkować otrzymaniem tzw. korelacji pozornej, w której w kategoriach statystycznych istnieje relacja między zmiennymi, natomiast brak jest rzeczywistej zależności przyczynowo-skutkowej (np. pozytywna korelacja wieku i wysokości zarobków – z dużą pewnością możemy założyć, że osoba zarabia więcej ze względu na większe doświadczenie/staż pracy, niż z samego faktu, iż jest starsza).

Założenia analizy korelacji r-Pearsona

Podstawowym założeniem analizy korelacji r-Pearsona jest ilościowy charakter badanych zmiennych. Po drugie, współczynnik korelacji r-Pearsona jest miarą prostoliniowego związku między zmiennymi –  widać to na zamieszczonych poniżej przykładach korelacji dodatniej (rys. 1), ujemnej (rys. 2) oraz braku korelacji (rys. 3).

Rysunek 1. Korelacja dodatnia między wzrostem a wagą osób badanych.

Rysunek 1. Korelacja dodatnia między wzrostem a wagą osób badanych.

 

Rysunek 2. Korelacja ujemna między wiekiem osób badanych a czasem spędzanym dziennie w Internecie.

Rysunek 2. Korelacja ujemna między wiekiem osób badanych a czasem spędzanym dziennie w Internecie.

 

Rysunek 3. Brak korelacji między wiekem a wagą u badanych osób dorosłych.

Rysunek 3. Brak korelacji między wiekem a wagą u badanych osób dorosłych.

 

Jeśli wykorzystamy analizę korelacji do zmiennych, których relacja jest krzywoliniowa, mogłoby dojść np. do sytuacji pozornego braku korelacji, gdzie pomimo istnienia współzależności, nie pojawi się ona w kategoriach statystycznych. Przedstawiony przykład obrazuje U-kształtną korelację krzywoliniową między wiekiem a wymaganiem zaopiekowania (rys. 4), gdzie człowiek wymaga zazwyczaj opieki w pierwszych i końcowych latach życia. Jeśli spoglądalibyśmy jednak tylko na otrzymane wartości statystyczne (tab. 2), doszlibyśmy do wniosku, że między badanymi zmiennymi związek jest bardzo słaby.

 

Rysunek 4. Korelacja krzywoliniowa U-kształtna między wiekiem osób badanych a wymaganiem zaopiekowania.

Rysunek 4. Korelacja krzywoliniowa U-kształtna między wiekiem osób badanych a wymaganiem zaopiekowania.

 

Tabela 2. Wartości korelacji między zmiennymi wiek a wymaganie zaopiekowania.

Tabela 2. Wartości korelacji między zmiennymi wiek a wymaganie zaopiekowania.

 

Trzecim ważnym aspektem jest wrażliwość wskaźnika korelacji r-Pearsona na obserwacje odstające lub inne anomalie w rozkładzie wartości. Jeśli pozostawimy je w naszej analizie, mogą one „sztucznie” zawyżyć lub zaniżyć siłę korelacji między zmiennymi. Klasycznym przykładem jest tutaj tzw. Kwartet Anscombe’a (rys. 5), który obrazuje, jak bardzo rozkład zmiennych może się różnić, przy zachowaniu tych samych wartości statystycznych (tab. 3).

 

Rysunek 5. Kwartet Anscombe’a.

Rysunek 5. Kwartet Anscombe’a.

 

 

Tabela 3. Wartości korelacji w przedstawionym przykładzie Kwartetu Anscombe’a.

Tabela 3. Wartości korelacji w przedstawionym przykładzie Kwartetu Anscombe’a.

 

Z opisanych powyżej powodów dobrym punktem wyjścia będzie rozpoczęcie działań od wykonania wykresu rozrzutu, dzięki któremu można zarówno oszacować, czy obserwacje w istocie znajdują się w prostoliniowej relacji, jak i czy nie ma wśród nich obserwacji odstających, znacząco oddalonych od pozostałych. Warto do tego wykorzystać odpowiednie narzędzie statystyczne, takie jak PS IMAGO PRO, które pozwoli zarówno na dokładną analizę korelacji, jak i na wykonanie potrzebnych wykresów.

 


Udostępnij artykuł w social mediach:


Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe