Współczynnik korelacji r-Pearsona

Tekst przeczytasz w: 5 minut.

Współczynnik korelacji r-Pearsona pozwala na określenie, czy istnieje związek liniowy między dwoma zmiennymi – jeśli tak, to pozwala określić jaka jest jego siła oraz jaki ma on charakter tj. czy jest dodatni (korelacja pozytywna) czy ujemny (korelacja negatywna).

Sprawdź również:

Współczynnik korelacji r-Pearsona może przyjmować wartości od -1 do 1. Na podstawie wartości liczbowej wnioskować możemy o sile związku – im wartość jest bliższa zera, tym siła związku jest słabsza. Należy jednak pamiętać, że współczynnik korelacji r-Pearsona zakłada, że charakter zależności jest liniowy. Możliwe jest zatem istnienie silnej korelacji nieliniowej, przy wartości r równej lub bliskiej 0, ale więcej o tym pod koniec artykułu.

 

Chcesz wiedzieć więcej?

Zapraszamy na szkolenie ST 1. Podstawy statystyki dla każdego

Znak liczby pozwala na ocenę kierunku relacji – gdy wartość liczbowa jest dodatnia, oznacza to, że wraz ze wzrostem wartości jednej zmiennej rosną wartości także drugiej, natomiast wartość ujemna świadczy o tym, że wzrost wartości jednej zmiennej wiąże się ze spadkiem wartości drugiej.

Tabela 1. Wartości korelacji między zmiennymi wiek a częstość korzystania z Internetu

Tabela 1. Wartości korelacji między zmiennymi wiek a częstość korzystania z Internetu

 

Tabela 1. pozwala nam stwierdzić, że między zmiennymi wiek a czas spędzany w Internecie istnieje negatywna korelacja wynosząca r=-0,96.Oznacza to, że im młodsza osoba (niższy wiek), tym więcej czasu spędza w ciągu dnia na korzystaniu z Internetu.

 

Interpretacja współczynnika korelacji r-Pearsona

Interpretując współczynnik korelacji r-Pearsona należy przede wszystkim zastanowić się z jakiego rodzaju danymi mamy do czynienia. W praktyce, w środowisku naturalnym ciężko znaleźć korelacje idealne między zmiennymi, czyli takie, w których współczynnik wynosi -1 lub 1.

Porównując różne przedziały wartości bezwzględnych współczynnika r-Pearsona, stosowane do interpretowania uzyskanych wyników, możemy zauważyć, że np. przy danych z obszaru nauk medycznych, z uwagi na ich charakter interpretacja jest bardziej „rygorystyczna” niż w przypadku nauk społecznych1.

Nauki społeczne:

< 0,3               korelacja słaba

0,4-0,6            korelacja umiarkowana

0,7-0,9            korelacja silna

1                    korelacja idealna

 

Nauki medyczne:

< 0,2               korelacja słaba

0,3-0,5            korelacja dostateczna

0,6-0,7            korelacja umiarkowana

0,8-0,9            korelacja bardzo silna

1                     korelacja idealna

Przedstawione podziały nie są oczywiście uniwersalne dla danych dziedzin. Interpretacja siły związku zależy przede wszystkim od obszaru badań i charakteru badanego zjawiska. Jeszcze przed otrzymaniem wyników analiz badacz powinien, w oparciu o swoją ekspercką wiedzę, wiedzieć jakie wartości będą dla konkretnych danych adekwatne, aby ocenić siłę związku.

O wiele prostsza jest oczywiście sytuacja, w której chcemy porównać siłę związku pomiędzy różnymi zmiennymi z jednego obszaru badań. Próbując odpowiedzieć na pytanie, która para zmiennych jest silniej skorelowana, wystarczy, że znamy ich wartości współczynnika korelacji.

Kolejnym ważnym aspektem interpretacji współczynnika korelacji jest to, jak dalekie wnioski możemy na jego podstawie wyciągać. Patrząc na wcześniej przywołane wyniki (tab.1), możemy stwierdzić z całą pewnością, że jeśli już, to wiek osoby wpływa na czas korzystania z Internetu, a nie odwrotnie. Wynika to z posiadanej przez nas podstawowej wiedzy, że wiek nie może być zależny od ilości czasu spędzanego każdego dnia na korzystaniu z Internetu.

Współczynnik korelacji sam w sobie nie daje nam jednak odpowiedzi na pytanie o kierunek zależności, tzn. odpowiedzi na pytanie, która zmienna wpływa na którą. Możemy potwierdzić istnienie oraz kierunek korelacji, natomiast interpretacja związku przyczynowo-skutkowego zależy od posiadanej przez nas wiedzy w danej dziedzinie.

Bezkrytyczne podejście do otrzymanych wyników może skutkować otrzymaniem tzw. korelacji pozornej, w której w kategoriach statystycznych istnieje relacja między zmiennymi, natomiast brak jest rzeczywistej zależności przyczynowo-skutkowej (np. pozytywna korelacja wieku i wysokości zarobków – z dużą pewnością możemy założyć, że osoba zarabia więcej ze względu na większe doświadczenie/staż pracy, niż z samego faktu, iż jest starsza).

 

Założenia analizy korelacji r-Pearsona

Jeśli decydujemy się na wykonanie analizy korelacji r-Pearsona, należy mieć na uwadze kilka kluczowych kwestii. Po pierwsze, podstawowym założeniem jest ilościowy charakter badanych zmiennych. Po drugie, współczynnik korelacji r-Pearsona jest miarą prostoliniowego związku między zmiennymi - widać to na zamieszczonych poniżej przykładach korelacji dodatniej (rys. 1), ujemnej (rys. 2) oraz braku korelacji (rys. 3).

Rysunek 1. Korelacja dodatnia między wzrostem a wagą osób badanych.

Rysunek 1. Korelacja dodatnia między wzrostem a wagą osób badanych.

 

Rysunek 2. Korelacja ujemna między wiekiem osób badanych a czasem spędzanym dziennie w Internecie.

Rysunek 2. Korelacja ujemna między wiekiem osób badanych a czasem spędzanym dziennie w Internecie.

 

Rysunek 3. Brak korelacji między wiekem a wagą u badanych osób dorosłych.

Rysunek 3. Brak korelacji między wiekem a wagą u badanych osób dorosłych.

 

Jeśli wykorzystamy analizę korelacji do zmiennych, których relacja jest krzywoliniowa, mogłoby dojść np. do sytuacji pozornego braku korelacji, gdzie pomimo istnienia współzależności, nie pojawi się ona w kategoriach statystycznych. Przedstawiony niżej przykład obrazuje U-kształtną korelację krzywoliniową między wiekiem a wymaganiem zaopiekowania (rys. 4), gdzie człowiek wymaga zazwyczaj opieki w pierwszych i końcowych latach życia. Jeśli spoglądalibyśmy jednak tylko na otrzymane wartości statystyczne (tab. 2), doszlibyśmy do wniosku, że między badanymi zmiennymi związek jest bardzo słaby.

 

Rysunek 4. Korelacja krzywoliniowa U-kształtna między wiekiem osób badanych a wymaganiem zaopiekowania.

Rysunek 4. Korelacja krzywoliniowa U-kształtna między wiekiem osób badanych a wymaganiem zaopiekowania.

 

Tabela 2. Wartości korelacji między zmiennymi wiek a wymaganie zaopiekowania.

Tabela 2. Wartości korelacji między zmiennymi wiek a wymaganie zaopiekowania.

 

Trzecim ważnym aspektem jest wrażliwość wskaźnika korelacji r-Pearsona na obserwacje odstające lub inne anomalie w rozkładzie wartości. Jeśli pozostawimy je w naszej analizie, mogą one „sztucznie” zawyżyć lub zaniżyć siłę korelacji między zmiennymi. Klasycznym przykładem jest tutaj tzw. Kwartet Anscombe’a (rys. 5), który obrazuje jak bardzo rozkład zmiennych może się różnić, przy zachowaniu tych samych wartości statystycznych (tab. 3).

 

Rysunek 5. Kwartet Anscombe’a.

Rysunek 5. Kwartet Anscombe’a.

 

 

Tabela 3. Wartości korelacji w przedstawionym przykładzie Kwartetu Anscombe’a.

Tabela 3. Wartości korelacji w przedstawionym przykładzie Kwartetu Anscombe’a.

 

Z opisanych powyżej powodów dobrym punktem wyjścia będzie rozpoczęcie działań od wykonania wykresu rozrzutu, dzięki któremu można zarówno oszacować, czy obserwacje w istocie znajdują się w prostoliniowej relacji oraz czy nie ma wśród nich obserwacji odstających, znacząco oddalonych od pozostałych.

 

Współczynnik determinacji R2

 

Zagadnieniem powiązanym bezpośrednio z analizą korelacji r-Pearsona jest współczynnik determinacji R 2. Z matematycznego punktu widzenia, jest to po prostu wartość współczynnika korelacji r-Pearsona podniesiona do kwadratu.

Wartość R 2 mówi nam o tym, jaki procent zmienności zmiennej zależnej jest wyjaśniany za pomocą zmienności zmiennej niezależnej. W przedstawianych wcześniej, prostych przykładach, byłby to więc procent zmienności zmiennej zależnej (np. czas spędzany dziennie w Internecie) wyjaśniany za pomocą zmiennej niezależnej (np. wiek). Współczynnik R 2 pozwala nam na ocenę jakości dopasowania danego modelu do wykorzystywanych danych.

Współczynnik R 2 może przyjmować wartości od 0 do 1. Jeśli jest on równy 0, oznacza to, że model wyjaśnia 0% zmienności badanej zmiennej, czyli nie pomaga w wyjaśnianiu badanej zmiennej. Jeśli wartość R 2 wynosi 1, to nasz model wyjaśnia 100% badanej zmiennej, czyli są one doskonale powiązane. W praktyce zazwyczaj jednak mamy do czynienia z różnymi zmiennymi zakłócającymi, które również wpływają na zmienną zależną.

Wracając do przykładu z Tabeli 1., możemy wyliczyć, że R 2 = 0,916. Oznacza to, że wiek osoby badanej wyjaśnia 92% zmienności czasu spędzanego każdego dnia na korzystaniu z Internetu. W praktyce - zbyt piękne, żeby było prawdziwe :).

 

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO

[1]za: Akoglu, H., 2018. User's guide to correlation coefficients. Turkish journal of emergency medicine18(3), 91-93.

 


Oceń artykuł:

Udostępnij artykuł w social mediach


Tagi:


Zostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.