Za tradycyjny, podstawowy współczynnik korelacji uznaje się r-Pearsona, jednak posiada on pewne ograniczenia. Obecnie mamy do dyspozycji wiele różnych miar zależności, które pozwalają na analizę korelacji wielu rodzajów zmiennych. Zazwyczaj, jeśli mamy dane liczbowe (ze skali przedziałowej lub ilorazowej), najlepszym wyborem będą tradycyjne współczynniki korelacji. W innych przypadkach, użyteczne będą takie współczynniki korelacji jak np. fi czy V Craméra dla zmiennych nominalnych. Poziom pomiaru zmiennych jest więc pierwszym aspektem, który powinniśmy wziąć pod uwagę przy wyborze współczynnika korelacji.
Wybór analizy korelacji zależał będzie również od rodzaju zależności między badanymi zmiennymi. W przypadku, gdy związek jest prostoliniowy wykorzystać należy tradycyjną analizę korelacji Pearsona. Dla związków monotonicznych, ale niekoniecznie prostoliniowych, dobrym wyborem jest współczynnik rho Spearmana lub któryś z wariantów tau Kendalla.
Najczęściej wykorzystywane współczynniki korelacji, przedstawione w pierwszej części artykułu, mogą przyjmować wartości od -1 do 1. Im wartość ta jest bliższa 1, tym silniejsza korelacja dodatnia (pozytywna), a im bliższa -1, tym silniejsza korelacja ujemna (negatywna). Wartości bliższe 0 oznaczają, że związek między zmiennymi jest słaby.
Niektóre współczynniki przyjmują jedynie wartości od 0 do 1, gdzie wartości bliskie 1 świadczą o silnej korelacji. Nie można wówczas wnioskować o kierunku zależności, co zazwyczaj wynika i tak z poziomu pomiaru zmiennych dla których wykorzystuje się te współczynniki - stosowane są one bowiem zazwyczaj dla skali nominalnej (np. kolor oczu, płeć), w przypadku której nie możemy powiedzieć, że dana zmienna rośnie lub maleje pod wpływem innej. Interpretując współczynnik korelacji należy mieć więc na uwadze zarówno samą wartość, jak i znak liczby, przy czym znak w ściśle określonych przypadkach.
Co istotne, sam współczynnik korelacji nie dostarcza nam informacji związku przyczynowo-skutkowym. Jeśli chcemy wnioskować o tym, która zmienna wpływa na którą, musimy odnieść się do teorii i własnej eksperckiej wiedzy - jeśli nie jesteśmy jednak w stanie określić przyczynowości, współczynniki korelacji umożliwiają nam jedynie stwierdzenie występowania korelacji między zmiennymi.
Współczynnik korelacji r-Pearsona
Jednym z najczęściej wybieranych współczynników korelacji jest r-Pearsona. Pozwala na badanie siły związku prostoliniowego (rys. 1) pomiędzy dwoma zmiennymi mierzonymi skalą liczbową. Wartość współczynnika korelacji Pearsona może być wrażliwa na występowanie obserwacji odstających i inne anomalie w danych, dlatego istotna jest ich wcześniejsza diagnostyka. Współczynnik korelacji r-Pearsona może przyjmować wartości od –1 do 1.
Wartość współczynnika r-Pearsona można wykorzystać do wyliczenia współczynnika determinacji R2 poprzez podniesienie jej do kwadratu. Wartość R2 może przyjmować wartości od 0 do 1. Współczynnik determinacji informuje o tym, jaki procent zmienności badanej zmiennej jest wyjaśniany przez zmienną niezależną.
Rysunek 1. Korelacja dodatnia między wzrostem a wagą osób badanych.
Tabela 1. Wartości korelacji między zmiennymi waga a wzrost.
Współczynnik korelacji rho Spearmana
Innym współczynnikiem korelacji jest rho Spearmana. Dzięki temu, że opiera się on na rangowaniu, można wykorzystać go do analizy zmiennych mierzonych na skali porządkowej (np. wielkość miejsca zamieszkania, poziom wykształcenia), co nie jest możliwe w przypadku klasycznego współczynnika korelacji r-Pearsona.
Rho Spearmana jest często drugim wyborem, gdy posiadane dane nie spełniają warunków analizy korelacji Pearsona. Korelacja rangowa Spearmana pozwala na analizę korelacyjną zmiennych posiadających obserwacje odstające, których decydujemy się nie usuwać np. z powodu małej liczebności danych. Analiza korelacji Spearmana pozwala na badanie dowolnej zależności monotonicznej (rys. 2), a nie tylko związku prostoliniowego między zmiennymi. Współczynnik korelacji rho Spearmana może przyjmować wartości z zakresu od –1 do 1.
Rysunek 2. Zależność monotoniczna między wiekiem a wzrostem osób badanych – w początkowych latach
rośnie, a w wieku dorosłym utrzymuje się na stałym poziomie.
Tabela 2. Wartości korelacji między zmiennymi wiek a wzrost.
Współczynnik korelacji tau Kendalla
Współczynnik korelacji tau Kendalla (τ-Kendalla), podobnie jak rho Spearmana, pozwala na analizę zmiennych z porządkowego pomiaru zmiennych. Występuje w trzech wariantach: a, b i c, które znajdują zastosowanie w nieco innych okolicznościach. W odróżnieniu od współczynników korelacji Pearsona i Spearmana, analiza korelacji Kendalla w swoich założeniach opiera się na prawdopodobieństwie, że badane zmienne ułożą się w danym porządku. Współczynnik korelacji tau Kendalla może przyjmować wartości od –1 do 1.
Współczynnik fi
Inną wykorzystywaną miarą korelacji jest współczynnik fi (phi, ϕ), który bazuje na wartości chi-kwadrat. Wykorzystuje się go do badania zmiennych, które są nominalne oraz dychotomiczne – czyli można przypisać im wartości 0 i 1 (np. płeć biologiczna).
Tabela krzyżowa dla współczynnika fi ma zatem wymiary 2x2, czyli jest najprostszą wersją tabeli krzyżowej możliwą do stworzenia. Zakres wartości obejmuje wówczas od 0 do 1. Współczynnik fi można wykorzystać również do większych tabel krzyżowych, jednak wówczas wartość współczynnika może wykroczyć poza 1.
Współczynnik V Craméra
Współczynnik V Craméra oparty jest bezpośrednio na współczynniku fi. Obydwie badane zmienne mogą być również nominalne, natomiast mogą przyjmować więcej niż dwie wartości (np. poziom wykształcenia). Tabela krzyżowa stworzona na podstawie takich danych może mieć zatem dowolne wymiary, ale większe niż 2x2.
Współczynnik korelacji V Craméra, tak jak współczynnik korelacji fi, nie może przyjmować negatywnych wartości, a jedynie wartości z zakresu 0 do 1. Wynika to z faktu, że nominalny poziom pomiaru zmiennych nie pozwala na ich logiczne uporządkowanie, a więc nie możemy powiedzieć, że dana zmienna (np. kolor oczu) rośnie lub maleje. Interpretacja siły pozostaje jednak podobna jak przy wartościach bezwzględnych klasycznych współczynników korelacji – im wartość jest bliższa 1, tym związek między zmiennymi jest silniejszy.
Współczynnik eta i eta-kwadrat
Współczynnik korelacji eta (η) jest miarą zależności wykorzystywaną do analizy związku pomiędzy zmienną nominalną a interwałową lub ilorazową. Współczynnik eta może przyjmować wartości od 0 do 1.
Podobnie jak przy klasycznym współczynniku korelacji r-Pearsona, podniesienie wartości współczynnika eta do kwadratu pozwala na określenie procentu zmienności zmiennej zależnej wyjaśnianej przez zmienną niezależną. Eta-kwadrat (η²) przyjmuje wartości od 0 do 1, które po przemnożeniu przez 100% dają procentową wartości determinacji.
Na poniższym przykładzie (tab. 3) przedstawiony jest związek między porą roku a ilością filiżanek kawy spożywanych w ciągu dnia. Korelacja między tymi zmiennymi wynosi η = 0,51, a siła efektu równa jest η² = 0,26, więc wyjaśnia on 26% zmienności zmiennej zależnej.
Tabela 3. Wartości korelacji między zmiennymi pora roku
a ilość spożywanej kawy.
Podsumowanie
Przed rozpoczęciem analizy korelacji, dobrze jest wybrać odpowiedni współczynnik do posiadanych danych. Najważniejszym aspektem jest określenie poziomu pomiaru zmiennych, czyli czy mierzone są na skali nominalnej, porządkowej, przedziałowej czy ilorazowej.
W tym artykule omówione zostały podstawowe współczynniki korelacji, ale należy wspomnieć, że istnieje również wiele innych współczynników, które mogą być przydatne dla specyficznego rodzaju danych, takie jak: współczynnik kontyngencji, lambda, współczynnik niepewności, tau-b Kendalla, tau-c Kendalla, gamma, d-Sommersa i inne.
W przypadku analizy danych ilościowych, dobrze rozpocząć działania od wykonania wykresu rozrzutu. Umożliwia on zlokalizowanie ewentualnych obserwacji odstających, na które część współczynników jest wrażliwa. Dzięki wykresowi rozrzutu można również wstępnie ocenić, czy zależność między zmiennymi układa się w sposób np. monotoniczny, prosto- czy krzywoliniowy.
Dobór właściwego współczynnika korelacji jest więc konieczny, aby z otrzymanych statystycznych wyników wyciągać prawidłowe wnioski!