Test niezależności chi-kwadrat Pearsona
Test niezależności chi-kwadrat jest jednym najpopularniejszych testów statystycznych. Stosuje się go w celu sprawdzenia, czy między dwiema zmiennymi jakościowymi występuje istotna statystycznie zależność. Bazuje on na porównywaniu ze sobą liczebności obserwowanych, tj. takich, które uzyskaliśmy w badaniu, z liczebnościami oczekiwanymi, tj. takimi, które zakłada test, gdyby nie było żadnego związku między zmiennymi. Jeżeli różnica pomiędzy liczebnościami obserwowanymi a oczekiwanymi jest duża (istotna statystycznie) to można uznać, że zachodzi zależność między jedną zmienną a drugą. Test ten jest bardzo popularny w przypadku badań ankietowych, w których dominują zmienne jakościowe. W badaniach marketingowych test chi-kwadrat można wykorzystać np. do określenie czy, występuje zależności pomiędzy wyborem typu opakowania produktu a płcią klienta. Innym przykładem zastosowania może być weryfikacja, czy rodzaj uprawianego sportu jest zależny od wykształcenia badanych osób.
Rozważmy teraz przykład. Załóżmy, że analityk chce sprawdzić, czy zmienna Dochód respondenta jest istotnie statystycznie powiązana ze zmienną Płeć. Test niezależności chi-kwadrat zakłada, że zmienna Dochód oraz Płeć są niezależne od siebie, czyli proporcje są takie same dla wszystkich kolumn, a wszelkie rozbieżności wynikają z losowej zmienności. Test porównuje liczebności obserwowane z liczebnościami oczekiwanymi, których można by się spodziewać, gdyby te dwie zmienne nie były ze sobą powiązane.
Tabela 1.
Tabela krzyżowa dla zmiennej płeć i dochód wrazz liczebnościami obserwowanymi i oczekiwanymi
Gdy zmienne nie są powiązane, liczebności obserwowane i oczekiwane będą podobne, a wynik testu chi-kwadrat okaże się nieistotny statystycznie, tym samym nie będziemy mogli przyjąć, że między badanymi zmiennymi występuje istotna statystycznie zależność. Większa wartość statystyki chi-kwadrat oznacza większą rozbieżność między liczebnościami obserwowanymi i oczekiwanymi, a tym samym hipoteza o niezależności zmiennych jest błędna i można uznać, że między zmienną Płeć i Dochód występuje istotna statystycznie zależność.
Tabela 2.
Wynik testu chi-kwadrat
Jak widać w tabeli 2, istotność statystyczna jest mniejsza niż ogólnie przyjęte 0,05, a tym samym można uznać, że zmienne Dochód i Płeć są zależne. Należy zwrócić uwagę, że wynik testu chi-kwadrat nie informuje nas o sile tego związku, czy też jego kierunku. Aby dowiedzieć się więcej na temat tej zależności należy przyjrzeć się bliżej danym, a dokładniej tabeli krzyżowej dla analizowanych zmiennych. W tabeli częściej analizuje się wartości procentowe niż liczebności. Dzięki analizie tabeli krzyżowej analityk będzie wiedział, czy badana zależności jest zgodna z jego założeniami czy też nie.
Kiedy stosować test niezależności chi-kwadrat?
Jak już zostało to wcześniej wskazane, test ten jest używany do określenia, czy między dwiema zmiennymi jakościowymi zachodzi istotny statystycznie związek. Każda ze zmiennych może mieć kilka kategorii odpowiedzi, np: płeć - kobieta i mężczyzna; wykształcenie – podstawowe, średnie, wyższe itp. Z ostrożnością należy podchodzić do jego wykorzystania w sytuacji, kiedy mamy zmienne z bardzo dużą liczbą kategorii, wtedy założenia dla testu mogą być niespełnione.
Założenia dla testu niezależności chi-kwadrat
Test chi-kwadrat ma tylko kilka założeń a prostota jego wykonania i interpretacji powoduje, że jest on często wybierany w analizie danych.
Najważniejsze założenia testu chi-kwadrat:
- Zmienne w analizie muszą być zmiennymi jakościowymi (zmienna nominalna lub porządkowa).
- Próba z jakiej pochodzą wyniki została wybrana losowo z populacji.
- Niezależność badanych kategorii (obserwacja nie może należeć jednocześnie do dwóch kategorii jednej zmiennej).
- Nie więcej niż 20% komórek ma liczebność oczekiwaną mniejszą niż 5.
- Minimalna liczebność oczekiwana jest większa od 1.
Wzór testu niezależności chi-kwadrat
Choć obecnie wyliczanie testu chi-kwadrat „na piechotę” jest czynnością, którą raczej wykonują tylko studenci na egzaminach ze statystyki, to warto przyjrzeć się jak wygląda wzór na tę statystykę.
Gdzie:
– test chi-kwadrat,
– liczebność obserwowana w komórce utworzonej przez kategorię i zmiennej wierszowej oraz kategorię j zmiennej kolumnowej,
– liczebność oczekiwana w komórce utworzonej przez kategorię i zmiennej wierszowej oraz kategorię j zmiennej kolumnowej,
– suma wyników (kwadratów reszt standaryzowanych) obliczana dla wszystkich komórek tabeli o w wierszach i k kolumnach, których jest w * k.
Jak widać, statystyka chi-kwadrat to kwadrat różnicy liczebności obserwowanej i liczebności oczekiwanej, podzielony przez liczebność oczekiwaną. Uzyskane wyniki następnie sumujemy dla wszystkich grup.
Hipotezę zerową i alternatywną dla testu niezależności chi-kwadrat można zapisać następująco:
- H0: Analizowane zmienne są niezależne.
- H1: Analizowane zmienne są zależne.
Podsumowując… Test niezależności chi-kwadrat jest popularnym testem statystycznym wykorzystywanym w badaniach, gdzie stawiamy pytania badawcze dotyczące tego, czy jedna ze zmiennych jest zależna od innej. Warunkiem jego wykorzystania jest to, by zmienne były zmiennymi jakościowymi. Najczęściej tego typu zmienne gromadzone są w przypadku badań społecznych, marketingowych i psychologicznych.