Współczynnik korelacji r-Pearsona może przyjmować wartości od -1 do 1. Na podstawie wartości liczbowej, wnioskować możemy o sile związku – im wartość jest bliższa zera, tym siła związku jest słabsza. Należy jednak pamiętać, że współczynnik korelacji r-Pearsona zakłada, że charakter zależności jest liniowy. Możliwe jest zatem istnienie silnej korelacji nieliniowej, przy wartości r równej lub bliskiej 0, ale więcej o tym pod koniec artykułu.
Znak liczby pozwala na ocenę kierunku relacji – gdy wartość liczbowa jest dodatnia, oznacza to, że wraz ze wzrostem wartości jednej zmiennej rosną wartości także drugiej, natomiast wartość ujemna świadczy o tym, że wzrost wartości jednej zmiennej wiąże się ze spadkiem wartości drugiej.
Tabela 1. Wartości korelacji między zmiennymi wiek a częstość korzystania z Internetu
Tabela 1. pozwala nam stwierdzić, że między zmiennymi wiek a czas spędzany w Internecie istnieje negatywna korelacja wynosząca r=-0,96. Oznacza to, że im młodsza osoba (niższy wiek), tym więcej czasu spędza w ciągu dnia na korzystaniu z Internetu.
Współczynnik korelacji r-Pearsona – interpretacja
Interpretując współczynnik korelacji r-Pearsona należy przede wszystkim zastanowić się, z jakiego rodzaju danymi mamy do czynienia. W praktyce, w środowisku naturalnym ciężko znaleźć korelacje idealne między zmiennymi, czyli takie, w których współczynnik wynosi -1 lub 1.
Porównując różne przedziały wartości bezwzględnych współczynnika r-Pearsona, stosowane do interpretowania uzyskanych wyników, możemy zauważyć, że np. przy danych nauk medycznych, z uwagi na ich charakter, interpretacja jest bardziej „rygorystyczna” niż w przypadku nauk społecznych.
Nauki społeczne:
< 0,3 korelacja słaba
0,4-0,6 korelacja umiarkowana
0,7-0,9 korelacja silna
1 korelacja idealna
Nauki medyczne:
< 0,2 korelacja słaba
0,3-0,5 korelacja dostateczna
0,6-0,7 korelacja umiarkowana
0,8-0,9 korelacja bardzo silna
1 korelacja idealna
Interpretacja siły związku zależy przede wszystkim od obszaru badań i charakteru badanego zjawiska. Jeszcze przed otrzymaniem wyników analiz, badacz powinien, w oparciu o swoją ekspercką wiedzę, wiedzieć, jakie wartości będą dla konkretnych danych adekwatne, aby ocenić siłę związku.
Kolejnym ważnym aspektem interpretacji współczynnika korelacji jest to, jak dalekie wnioski możemy na jego podstawie wyciągać. Patrząc na wcześniej przywołane wyniki (tab.1), możemy stwierdzić z całą pewnością, że jeśli już to wiek osoby wpływa na czas korzystania z Internetu, a nie odwrotnie. Wynika to z posiadanej przez nas, podstawowej wiedzy, że wiek nie może być zależny od ilości czasu spędzanego każdego dnia na korzystaniu z Internetu.
Współczynnik korelacji sam w sobie nie daje nam jednak odpowiedzi na pytanie o kierunek zależności, tzn. odpowiedzi na pytanie, która zmienna wpływa na którą. Możemy potwierdzić istnienie oraz kierunek korelacji, natomiast interpretacja związku przyczynowo-skutkowego zależy od posiadanej przez nas wiedzy w danej dziedzinie.
Bezkrytyczne podejście do otrzymanych wyników może skutkować otrzymaniem tzw. korelacji pozornej, w której w kategoriach statystycznych istnieje relacja między zmiennymi, natomiast brak jest rzeczywistej zależności przyczynowo-skutkowej (np. pozytywna korelacja wieku i wysokości zarobków – z dużą pewnością możemy założyć, że osoba zarabia więcej ze względu na większe doświadczenie/staż pracy, niż z samego faktu, iż jest starsza).
Założenia analizy korelacji r-Pearsona
Podstawowym założeniem analizy korelacji r-Pearsona jest ilościowy charakter badanych zmiennych. Po drugie, współczynnik korelacji r-Pearsona jest miarą prostoliniowego związku między zmiennymi – widać to na zamieszczonych poniżej przykładach korelacji dodatniej (rys. 1), ujemnej (rys. 2) oraz braku korelacji (rys. 3).
Rysunek 1. Korelacja dodatnia między wzrostem a wagą osób badanych.
Rysunek 2. Korelacja ujemna między wiekiem osób badanych a czasem spędzanym dziennie w Internecie.
Rysunek 3. Brak korelacji między wiekem a wagą u badanych osób dorosłych.
Jeśli wykorzystamy analizę korelacji do zmiennych, których relacja jest krzywoliniowa, mogłoby dojść np. do sytuacji pozornego braku korelacji, gdzie pomimo istnienia współzależności, nie pojawi się ona w kategoriach statystycznych. Przedstawiony przykład obrazuje U-kształtną korelację krzywoliniową między wiekiem a wymaganiem zaopiekowania (rys. 4), gdzie człowiek wymaga zazwyczaj opieki w pierwszych i końcowych latach życia. Jeśli spoglądalibyśmy jednak tylko na otrzymane wartości statystyczne (tab. 2), doszlibyśmy do wniosku, że między badanymi zmiennymi związek jest bardzo słaby.
Rysunek 4. Korelacja krzywoliniowa U-kształtna między wiekiem osób badanych a wymaganiem zaopiekowania.
Tabela 2. Wartości korelacji między zmiennymi wiek a wymaganie zaopiekowania.
Trzecim ważnym aspektem jest wrażliwość wskaźnika korelacji r-Pearsona na obserwacje odstające lub inne anomalie w rozkładzie wartości. Jeśli pozostawimy je w naszej analizie, mogą one „sztucznie” zawyżyć lub zaniżyć siłę korelacji między zmiennymi. Klasycznym przykładem jest tutaj tzw. Kwartet Anscombe’a (rys. 5), który obrazuje, jak bardzo rozkład zmiennych może się różnić, przy zachowaniu tych samych wartości statystycznych (tab. 3).
Rysunek 5. Kwartet Anscombe’a.
Tabela 3. Wartości korelacji w przedstawionym przykładzie Kwartetu Anscombe’a.
Z opisanych powyżej powodów dobrym punktem wyjścia będzie rozpoczęcie działań od wykonania wykresu rozrzutu, dzięki któremu można zarówno oszacować, czy obserwacje w istocie znajdują się w prostoliniowej relacji, jak i czy nie ma wśród nich obserwacji odstających, znacząco oddalonych od pozostałych. Warto do tego wykorzystać odpowiednie narzędzie statystyczne, takie jak PS IMAGO PRO, które pozwoli zarówno na dokładną analizę korelacji, jak i na wykonanie potrzebnych wykresów.