Testy parametryczne
Testy parametryczne to grupa statystycznych technik analizy danych. Są one używane do badania różnic między grupami lub zestawami danych. Celem ich stosowania jest wyciągnięcie wniosków na temat populacji, z której te dane pochodzą. Jak nazwa wskazuje, testy te wykorzystują informacje o parametrach populacji, takich jak średnia czy odchylenie standardowe. Zaletą testów parametrycznych jest ich moc statystyczna. Są one zazwyczaj bardziej czułe i dokładne podczas testowania hipotez dotyczących średnich i wariancji, przy założeniu, że spełnione są określone warunki. Na przykład, jeśli mamy dane o rozkładzie normalnym z równymi wariancjami pomiędzy grupami, test t lub ANOVA prawdopodobnie da dokładniejsze wyniki niż nieparametryczne odpowiedniki, takie jak test Wilcoxona lub test Kruskala-Wallisa.
Do głównych założeń testów parametrycznych można zaliczyć:
- normalność rozkładu danych – testy parametryczne zakładają, że dane w badanych grupach pochodzą z rozkładu normalnego. Oznacza to, że dane powinny być zbliżone do krzywej rozkładu normalnego,
- homogeniczność wariancji – zakłada się, że wariancje danych w różnych grupach są równe, czyli nie występują istotne różnice w rozproszeniu danych między grupami,
- typ danych – najczęściej stosowane do danych mierzonych na ilościowym poziomie pomiaru.
Testy nieparametryczne
W przypadku testów nieparametrycznych trudno wskazać główne założenia, ponieważ w tym przypadku tego rodzaju techniki statystyczne są dość elastyczne. Jak już wspomniano, dla tych testów nie zakładamy konkretnego rozkładu danych i mogą być stosowane do zmiennych mierzonych na skali nominalnej i porządkowej. Testy te nie wykorzystują również informacji o parametrach populacji. Testy nieparametryczne są często stosowane, gdy dane nie spełniają założeń testów parametrycznych lub gdy mamy do czynienia z danymi mierzonymi na jakościowym poziomie pomiaru. Służą do porównywania rozkładów, median lub rang, a niekoniecznie parametrów populacji. Testy nieparametryczne są mniej czułe (mniejsza moc testu) na wykrywanie subtelnych różnic między grupami niż testy parametryczne.
Jednym z testów nieparametrycznych jest test U Manna-Whitneya. Jest to nieparametryczny odpowiednik testu t-Studenta, wykorzystywany do porównywania dwóch niezależnych grup pod względem różnic w rozkładzie rang. Innym rodzajem testu nieparametrycznego jest test Kruskala-Wallisa, który jest odpowiednikiem analizy wariancji (ANOVA).
Różnice i cechy testów parametrycznych i nieparametrycznych zaprezentowano w tabeli 1.
Cecha |
Testy parametryczne |
Testy nieparametryczne |
---|---|---|
Założenia dotyczące rozkładu populacji |
Wymagają spełnienia określonych założeń |
Nie wymagają spełnienia założeń, np. normalność rozkładu, homogeniczność wariancji |
Informacje o populacji |
Wykorzystują informacje o parametrach populacji |
Nie wykorzystują informacji o parametrach populacji |
Moc testu |
Zazwyczaj mają większą moc niż testy nieparametryczne |
Mają mniejszą moc niż testy parametryczne |
Przykładowe testy |
Test t-Studenta, ANOVA |
Test Wilcoxona, test Kolmogorowa-Smirnowa |
Tabela 1. Porównanie głównych cech testów parametrycznych i nieparametrycznych
Test parametryczny a nieparametryczny – jak dokonać wyboru?
Na koniec zastanówmy się nad tym, jak możemy dokonać wyboru odpowiedniego testu do analizy danych. Wybór między testem parametrycznym a nieparametrycznym zależy od wielu czynników, w tym od rodzaju danych, założeń dotyczących rozkładu danych i celu badania. Oto kilka czynników, które mogą pomóc w zdecydowaniu, który rodzaj testu jest odpowiedni.
- Założenia testu. Testy parametryczne mają konkretne założenia, takie jak normalność rozkładu i równość wariancji. Jeśli dane są zbliżone do rozkładu normalnego i spełniają pozostałe założenia dla testu, można wybrać test parametryczny. Jeśli natomiast założenia nie są spełnione, lepszym wyborem mogą być testy nieparametryczne.
- Poziom pomiaru. Testy parametryczne są bardziej odpowiednie do danych mierzonych na skali interwałowej lub ilorazowej, gdzie można dokładnie określić różnice między wartościami. Testy nieparametryczne są bardziej elastyczne i można je stosować do różnych skal pomiaru, w tym do danych porządkowych lub nominalnych.
- Wielkość próby badawczej. W przypadku małych prób testy nieparametryczne mogą być bardziej odpowiednie, ponieważ testy parametryczne mogą wymagać spełnienia założeń dotyczących rozkładu, które są trudniejsze do spełnienia w przypadku małych prób.
- Cel badania. Jeśli celem jest porównanie median, analiza związku między zmiennymi porządkowymi lub ocena różnic w rozkładzie danych, testy nieparametryczne mogą być lepszym wyborem.
Ostateczny wybór między testem parametrycznym a nieparametrycznym zależy od konkretnego przypadku badawczego i danych, które analityk ma do dyspozycji. Ważne jest, aby dokładnie rozważyć powyższe czynniki i wybrać odpowiedni test na podstawie kontekstu badania oraz charakterystyki danych.
Testy parametryczne |
Testy nieparametryczne |
|
---|---|---|
Test t-Studenta (jedna próba) |
Test Wilcoxona |
|
Test t-Studenta (dwie próby zależne) |
Test Wilcoxona dla prób zależnych |
|
Test t-Studenta (dwie próby niezależne) |
Test U Manna-Whitneya |
|
Jednoczynnikowa analiza wariancji (ANOVA) |
Test Kruskala-Wallisa |
Tabela 2. Popularne testy parametryczne i ich nieparametryczne odpowiedniki
Przykład zastosowania w PS IMAGO PRO
Korzystając z PS IMAGO PRO, analityk ma dostęp do narzędzi, które pozwalają mu w szybki i prosty sposób sprawdzić założenia dla testów statystycznych. Program ten umożliwia także wykonanie odpowiedniej analizy i wizualizacji danych. Przykład, który prześledzimy, dotyczy testu parametrycznego t-Studenta, który służy do porównywania średnich dwóch niezależnych grup. Załóżmy, że chcemy sprawdzić, czy średni wzrost mężczyzn jest wyższy od średniego wzrostu kobiet.
Hipotezy są następujące:
- Hipoteza zerowa (H0): Średni wzrost mężczyzn nie różni się od średniego wzrostu kobiet.
- Hipoteza alternatywna (H1): Średni wzrost mężczyzn jest wyższy niż średni wzrost kobiet.
Aby to zrobić, pobieramy losowe próby z populacji mężczyzn i kobiet. Następnie weryfikujemy założenia, aby sprawdzić, czy dla zebranych danych możemy zastosować test t.
W pierwszej kolejności warto sprawdzić, czy nasze porównywane grupy są równoliczne. Jeśli mamy wątpliwość co do tego, czy grupy są równoliczne, to należy skorzystać z testu zgodności chi-kwadrat. Jeśli chcemy wyrównać liczebność kategorii zmiennej, z menu Predictive Solutions możemy wybrać procedurę Balansuj rozkład.
W kolejnym kroku sprawdzamy założenie o normalności analizowanych rozkładów zmiennych. W tym celu w PS IMAGO PRO warto skorzystać z procedury Eksploracja, która daje analitykowi pełny zestaw statystyk opisowych, np. średnie, odchylenia standardowe, wartość skośności, kurtozy itp. Dodatkowo analityk może wygenerować histogramy oraz wykresy normalności z testami Kołmogorowa-Smirnowa oraz Shapiro-Wilka, które pozwalają jednoznacznie określić czy to założenie jest spełnione, czy też nie. Jeśli założenie o normalności rozkładów nie jest spełnione, analityk może wybrać jeden z dostępnych testów nieparametrycznych, w tym przypadku byłby to test U Manna-Whitneya.
Następnie należy zweryfikować założenie o jednorodności wariancji w analizowanych grupach. W tym celu możemy skorzystać z testu Levene'a, dostępnego w procedurze Eksploracja.
Jeśli powyższe założenia są spełnione, można przejść do wykonania testu t dla prób niezależnych. Dla ułatwienia pracy analityka, w tabeli wynikowej testu t jest również prezentowana wartość testu Levene’a.
Jeśli różnica średnich jest istotna statystycznie, to w tym przykładzie możemy uznać, że obie grupy różnią się pod względem wzrostu.
Podsumowanie
Wybór testu zależy od rodzaju danych, celu analizy i spełnienia założeń testów parametrycznych. Jeśli dane nie spełniają założeń w przypadku testów parametrycznych, to warto wybrać testy nieparametryczne, które są mniej restrykcyjne w swoich wymaganiach dotyczących danych. Jednak testy parametryczne, gdy spełnione są odpowiednie założenia, często mają większą moc statystyczną. Dlatego ważne jest, aby dokładnie zrozumieć dane, które chcemy analizować i wybrać odpowiedni test statystyczny w zależności od sytuacji.