Test niezależności chi-kwadrat Pearsona

Tekst przeczytasz w:  3 minuty

Test niezależności chi-kwadrat jest jednym najpopularniejszych testów statystycznych. Stosuje się go w celu sprawdzenia, czy między dwiema zmiennymi jakościowymi występuje istotna statystycznie zależność.

Test niezależności chi-kwadrat Pearsona

Test niezależności chi-kwadrat jest jednym najpopularniejszych testów statystycznych. Stosuje się go w celu sprawdzenia, czy między dwiema zmiennymi jakościowymi występuje istotna statystycznie zależność. Bazuje on na porównywaniu ze sobą liczebności obserwowanych, tj. takich, które uzyskaliśmy w badaniu, z liczebnościami oczekiwanymi, tj. takimi, które zakłada test, gdyby nie było żadnego związku między zmiennymi. Jeżeli różnica pomiędzy liczebnościami obserwowanymi a oczekiwanymi jest duża (istotna statystycznie) to można uznać, że zachodzi zależność między jedną zmienną a drugą. Test ten jest bardzo popularny w przypadku badań ankietowych, w których dominują zmienne jakościowe. W badaniach marketingowych test chi-kwadrat można wykorzystać np. do określenie czy, występuje zależności pomiędzy wyborem typu opakowania produktu a płcią klienta. Innym przykładem zastosowania może być weryfikacja, czy rodzaj uprawianego sportu jest zależny od wykształcenia badanych osób.

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

ST 1. Podstawy statystyki dla każdego

Rozważmy teraz przykład. Załóżmy, że analityk chce sprawdzić, czy zmienna Dochód respondenta jest istotnie statystycznie powiązana ze zmienną Płeć. Test niezależności chi-kwadrat zakłada, że zmienna Dochód oraz Płeć są niezależne od siebie, czyli proporcje są takie same dla wszystkich kolumn, a wszelkie rozbieżności wynikają z losowej zmienności. Test porównuje liczebności obserwowane z liczebnościami oczekiwanymi, których można by się spodziewać, gdyby te dwie zmienne nie były ze sobą powiązane.

mapka

Tabela 1.
Tabela krzyżowa dla zmiennej płeć i dochód wrazz liczebnościami obserwowanymi i oczekiwanymi

Gdy zmienne nie są powiązane, liczebności obserwowane i oczekiwane będą podobne, a wynik testu chi-kwadrat okaże się nieistotny statystycznie, tym samym nie będziemy mogli przyjąć, że między badanymi zmiennymi występuje istotna statystycznie zależność. Większa wartość statystyki chi-kwadrat oznacza większą rozbieżność między liczebnościami obserwowanymi i oczekiwanymi, a tym samym hipoteza o niezależności zmiennych jest błędna i można uznać, że między zmienną Płeć i Dochód występuje istotna statystycznie zależność.

mapka

Tabela 2.
Wynik testu chi-kwadrat

Jak widać w tabeli 2, istotność statystyczna jest mniejsza niż ogólnie przyjęte 0,05, a tym samym można uznać, że zmienne Dochód i Płeć są zależne. Należy zwrócić uwagę, że wynik testu chi-kwadrat nie informuje nas o sile tego związku, czy też jego kierunku. Aby dowiedzieć się więcej na temat tej zależności należy przyjrzeć się bliżej danym, a dokładniej tabeli krzyżowej dla analizowanych zmiennych. W tabeli częściej analizuje się wartości procentowe niż liczebności. Dzięki analizie tabeli krzyżowej analityk będzie wiedział, czy badana zależności jest zgodna z jego założeniami czy też nie.

 

Kiedy stosować test niezależności chi-kwadrat?

Jak już zostało to wcześniej wskazane, test ten jest używany do określenia, czy między dwiema zmiennymi jakościowymi zachodzi istotny statystycznie związek. Każda ze zmiennych może mieć kilka kategorii odpowiedzi, np: płeć - kobieta i mężczyzna; wykształcenie – podstawowe, średnie, wyższe itp. Z ostrożnością należy podchodzić do jego wykorzystania w sytuacji, kiedy mamy zmienne z bardzo dużą liczbą kategorii, wtedy założenia dla testu mogą być niespełnione.

 

Założenia dla testu niezależności chi-kwadrat

Test chi-kwadrat ma tylko kilka założeń a prostota jego wykonania i interpretacji powoduje, że jest on często wybierany w analizie danych.

Najważniejsze założenia testu chi-kwadrat:

  1. Zmienne w analizie muszą być zmiennymi jakościowymi (zmienna nominalna lub porządkowa).
  2. Próba z jakiej pochodzą wyniki została wybrana losowo z populacji.
  3. Niezależność badanych kategorii (obserwacja nie może należeć jednocześnie do dwóch kategorii jednej zmiennej).
  4. Nie więcej niż 20% komórek ma liczebność oczekiwaną mniejszą niż 5.
  5. Minimalna liczebność oczekiwana jest większa od 1.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy

PS IMAGO PRO

Wzór testu niezależności chi-kwadrat

Choć obecnie wyliczanie testu chi-kwadrat „na piechotę” jest czynnością, którą raczej wykonują tylko studenci na egzaminach ze statystyki, to warto przyjrzeć się jak wygląda wzór na tę statystykę.

width="208"

Gdzie:

x2– test chi-kwadrat,

– liczebność obserwowana w komórce utworzonej przez kategorię i zmiennej wierszowej oraz kategorię j zmiennej kolumnowej,

– liczebność oczekiwana w komórce utworzonej przez kategorię i zmiennej wierszowej oraz kategorię j zmiennej kolumnowej,

– suma wyników (kwadratów reszt standaryzowanych) obliczana dla wszystkich komórek tabeli o w wierszach i k kolumnach, których jest w * k.

Jak widać, statystyka chi-kwadrat to kwadrat różnicy liczebności obserwowanej i liczebności oczekiwanej, podzielony przez liczebność oczekiwaną. Uzyskane wyniki następnie sumujemy dla wszystkich grup.

Hipotezę zerową i alternatywną dla testu niezależności chi-kwadrat można zapisać następująco:

  • H0: Analizowane zmienne są niezależne.
  • H1: Analizowane zmienne są zależne.

Podsumowując… Test niezależności chi-kwadrat jest popularnym testem statystycznym wykorzystywanym w badaniach, gdzie stawiamy pytania badawcze dotyczące tego, czy jedna ze zmiennych jest zależna od innej. Warunkiem jego wykorzystania jest to, by zmienne były zmiennymi jakościowymi. Najczęściej tego typu zmienne gromadzone są w przypadku badań społecznych, marketingowych i psychologicznych.


Udostępnij artykuł w social mediach:


Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe