Na początek warto przypomnieć podstawowe informacje o teście chi-kwadrat Pearsona. Pierwszym, który jest zapewne najczęściej wykorzystywanym, gdy mówimy o tego rodzaju teście jest test niezależności chi-kwadrat. W różnego rodzaju badaniach ankietowych z obszaru marketingu, psychologii, czy też socjologii głównym typem zmiennych jakie analityk ma do dyspozycji są zmienne jakościowe. Popularnym testem wykorzystywanym do analizy dwóch zmiennych jakościowych i określenia, czy między nimi występuje istotny statystycznie związek jest test niezależności chi-kwadrat.
Test zgodności chi-kwadrat możemy użyć, gdy mamy jedną zmienną jakościową. Często, choć nie zawsze, analityk oczekuje, że kategorie będą miały równe proporcje, np. gdy używamy testu t dla grup niezależnych lub w przypadku analizy wariancji. Test pozwala sprawdzić, czy rozkład częstości zmiennej kategorialnej znacząco różni się od naszych oczekiwań. Innymi słowy test zgodności chi-kwadrat służy do oceny, czy rozkład empiryczny danych jest zgodny z teoretycznym rozkładem, który jest opisany przez konkretną hipotezę zerową.
Podobną formą testu jest test jednorodności chi-kwadrat, który sprawdza, np. czy dwa rozkłady zmiennej mają takie same proporcje względem siebie. Ogólnie test jednorodności chi-kwadrat służy do sprawdzenia, czy rozkład częstości zmiennej kategorialnej różni się od innego zdefiniowanego rozkładu. Test ten jest wykorzystywany, gdy badacz chce sprawdzić, czy istnieje istotna różnica między rozkładami przynajmniej dwóch zmiennych kategorycznych. Przykłady hipotez zerowych, które można testować za pomocą testu jednorodności chi-kwadrat, to: częstość występowania pewnego zdarzenia w różnych grupach, porównanie preferencji konsumentów dla różnych produktów itp.
Z matematycznego punktu widzenia, warto zauważyć, że są to właściwie te same testy. Jednak często myślimy o nich jako o różnych testach, ponieważ są one wykorzystywane do różnych celów.
Wzór testu zgodności chi-kwadrat
Wzór dla testu niezależności oraz testu zgodności są w głównej idei bardzo do siebie zbliżone. W obu przypadkach wyliczając statystkę chi-kwadrat bazujemy na wartościach obserwowanych i oczekiwanych.
gdzie:
– statystyka testowa chi-kwadrat,
– wartości obserwowane,
– wartości oczekiwane,
– liczba pomiarów/grup.
Jak widać wzór jest zbliżony do wzoru dla testu niezależności chi-kwadrat[1]. Im większa różnica między wartościami obserwowanymi a oczekiwaniami, tym większa będzie wartość statystyki chi-kwadrat. Aby zdecydować, czy różnica jest statystycznie istotna, należy porównać otrzymaną wartość testu z tablicą wartości krytycznych rozkładu chi-kwadrat.
Przykład wyliczenia statystyki chi-kwadrat
Zapytaliśmy respondentów, czy przynajmniej raz w tygodniu uprawiają jakąś aktywność fizyczną, np. bieganie, siłownia, jazda na rowerze. Otrzymaliśmy następujące wyniki:
Tabela 1. Uprawianie aktywności fizycznej przynajmniej raz w tygodniu
Chcemy odpowiedzieć na pytanie, czy różnica między osobami wykonującymi przynajmniej jedną aktywność fizyczną w tygodniu a osobami niećwiczącymi jest istotna statystycznie. W tym celu wyliczymy statystykę chi-kwadrat. Najłatwiej będzie to wykonać, korzystając z odpowiednio przygotowanej tabeli.
Tabela 2. Wyliczenie statystyki chi-kwadrat dla danych dotyczących aktywności fizycznej
Po wyliczeniu statystyki chi-kwadrat, aby móc odpowiedzieć na postawione powyżej pytanie, musimy jeszcze wyliczyć liczbę stopni swobody (df). Wzór na liczbę stopni swobody jest następujący:
df = k-1
gdzie:
k – liczba kategorii.
W naszym przykładzie liczba stopni swobody wynosi 1.
Następnie należy porównać wartość chi-kwadrat z tablicą wartości krytycznych rozkładu chi-kwadrat. Przyjmując poziom istotności 0,05, w naszym przykładzie test chi-kwadrat nie wykazał istotnej statycznie różnicy między osobami ćwiczącymi i niećwiczącymi.
Test zgodności chi-kwadrat jako miara zróżnicowania dla zmiennych jakościowych w PS IMAGO PRO
Omówiłem w tym materiale podstawowe kwestie dotyczące testu zgodności chi-kwadrat oraz tego, jak możemy go wyliczyć nie korzystając z komputera i programu statystycznego. Przejdźmy teraz do nieoczywistego zastosowania tego testu, mianowicie wykorzystania go jako miary zróżnicowania dla zmiennych jakościowych.
Wróćmy do przykładu osób ćwiczących. Jeśli liczba osób ćwiczących i niećwiczących będzie taka sama, to wartość testu chi-kwadrat będzie wynosiła 0. Podobnie będzie, jeśli analizowana zmienna będzie miała więcej niż dwie kategorie, dla których liczebności są takie same. Jeśli wartość testu będzie zbliżona do 0, to wówczas zróżnicowanie kategorii badanej zmiennej możemy interpretować jako niewielkie.
Minimalna wartość dla testu chi-kwadrat wynosi 0, gdy rozkład liczebności jest równomierny. Maksymalna wartość jest osiągana natomiast wtedy, gdy wszystkie obserwacje są przypisane do jednej kategorii zmiennej.
Jedną z procedur, która pozwala na wyliczenie statystyki testu zgodności chi-kwadrat w PS IMAGO PRO jest Audyt danych. Procedura pozwala na przygotowanie podsumowania dla analizowanych zmiennych w formie tabel zawierających wybrane statystyki w podziale na zmienne jakościowe i ilościowe.
Przeanalizujmy kolejny przykład, w którym mamy zmienną o 4 kategoriach.
Tabela 3. Rozkład zmiennej „Typ nadwozia samochodowego”
Analizując tabele 3 można od razu zauważyć, że liczebności dla poszczególnych kategorii nie są równe, tym samym występuje między tymi kategoriami zróżnicowanie. Korzystając z procedury Audyt danych sprawdźmy jaka jest wartość statystyki chi-kwadrat.
Tabela 4. Wyniki chi-kwadrat dla analizowanej zmiennej
Jak widać wartość testu jest znacznie większa od 1 i wynosi 58,8. Jako, że nie jest to wartość wystandaryzowana do określonego przedziału, trudno jest określić, czy jest to duża wartość czy nie. Należałoby za każdym razem wyliczać maksymalną wartość dla tej statystyki dla konkretnego przykładu. Audyt danych ułatwia to zadanie, gdyż pozwala wyliczyć jaki procent maksymalnej wartości chi-kwadrat dla tego przykładu stanowi wartość, która została wyliczona (kolumna „Chi-kwadrat w porównaniu z wartością maksymalną”). W naszym pokładzie stanowi ona blisko 8% – co oznacza, że dla tej zmiennej i tego rozkładu danych jest to 8% maksymalnej zmienności jaką może przyjąć ta zmienna.
Podsumowując, testy chi-kwadrat są popularnymi testami mającymi zastosowanie nie tylko w przypadku szukania zależności miedzy zmiennymi jakościowymi, ale również w przypadku gdy potrzebujemy sprawdzić, czy kategorie zmiennej jakościowej są równoliczne. Często wiele testów statystycznych wymaga spełnienia założenia dla zmiennej grupującej, aby jej kategorie były równoliczne (np. jednoczynnikowa ANOVA). Test zgodności chi-kwadrat jest przydatnym narzędziem statystycznym do porównywania częstości występowania różnych kategorii zmiennej jakościowej i oceny, czy występują między nimi istotne różnice. Inną formą zastosowania tego testu jest wykorzystanie testu zgodności chi-kwadrat jako miary zróżnicowania dla zmiennych jakościowych. Oprócz prezentowanych już wcześniej na blogu statystyk takich jak Entropia oraz Indeks Ginniego – również dostępnych w PS IMAGO PRO – procedura Audyt danych oraz statystyka chi-kwadrat może stanowić bardzo dobre uzupełnienie przygotowywanych statystyk potrzebnych przy analizie rozkładu zmiennych jakościowych.
[1] https://predictivesolutions.pl/test-niezaleznosci-chi-kwadrat-pearsona