Testy parametryczne a nieparametryczne. Jaki test wybrać do analizy?

Tekst przeczytasz w:  5 minut

Analiza statystyczna jest nieodłącznym elementem badań naukowych i pracy z danymi. Aby wyciągnąć prawidłowe wnioski, niezbędne jest zastosowanie odpowiednich testów statystycznych. Analityk często staje przed wyborem, który test w danej sytuacji wybrać. Jest to ważne, ponieważ niewłaściwe dobranie testu do danych może spowodować, że wyniki będą obarczone błędem lub będą mało wiarygodne. Testy statystyczne, których używamy, możemy zazwyczaj przypisać do jednej z dwóch grup, tj. do testów parametrycznych lub nieparametrycznych. Poniżej omówię, czym różnią się te dwie grupy testów, a także czym należy się kierować podczas wyboru testu statystycznego w analizie danych.

Testy parametryczne

Testy parametryczne to grupa statystycznych technik analizy danych. Są one używane do badania różnic między grupami lub zestawami danych. Celem ich stosowania jest wyciągnięcie wniosków na temat populacji, z której te dane pochodzą. Jak nazwa wskazuje, testy te wykorzystują informacje o parametrach populacji, takich jak średnia czy odchylenie standardowe. Zaletą testów parametrycznych jest ich moc statystyczna. Są one zazwyczaj bardziej czułe i dokładne podczas testowania hipotez dotyczących średnich i wariancji, przy założeniu, że spełnione są określone warunki. Na przykład, jeśli mamy dane o rozkładzie normalnym z równymi wariancjami pomiędzy grupami, test t lub ANOVA prawdopodobnie da dokładniejsze wyniki niż nieparametryczne odpowiedniki, takie jak test Wilcoxona lub test Kruskala-Wallisa.

Do głównych założeń testów parametrycznych można zaliczyć:

  • normalność rozkładu danych – testy parametryczne zakładają, że dane w badanych grupach pochodzą z rozkładu normalnego. Oznacza to, że dane powinny być zbliżone do krzywej rozkładu normalnego, 
  • homogeniczność wariancji – zakłada się, że wariancje danych w różnych grupach są równe, czyli nie występują istotne różnice w rozproszeniu danych między grupami,
  • typ danych – najczęściej stosowane do danych mierzonych na ilościowym poziomie pomiaru.

Testy nieparametryczne

W przypadku testów nieparametrycznych trudno wskazać główne założenia, ponieważ w tym przypadku tego rodzaju techniki statystyczne są dość elastyczne. Jak już wspomniano, dla tych testów nie zakładamy konkretnego rozkładu danych i mogą być stosowane do zmiennych mierzonych na skali nominalnej i porządkowej. Testy te nie wykorzystują również informacji o parametrach populacji. Testy nieparametryczne są często stosowane, gdy dane nie spełniają założeń testów parametrycznych lub gdy mamy do czynienia z danymi mierzonymi na jakościowym poziomie pomiaru. Służą do porównywania rozkładów, median lub rang, a niekoniecznie parametrów populacji. Testy nieparametryczne są mniej czułe (mniejsza moc testu) na wykrywanie subtelnych różnic między grupami niż testy parametryczne.

Jednym z testów nieparametrycznych jest test U Manna-Whitneya. Jest to nieparametryczny odpowiednik testu t-Studenta, wykorzystywany do porównywania dwóch niezależnych grup pod względem różnic w rozkładzie rang. Innym rodzajem testu nieparametrycznego jest test Kruskala-Wallisa, który jest odpowiednikiem analizy wariancji (ANOVA). 

Różnice i cechy testów parametrycznych i nieparametrycznych zaprezentowano w tabeli 1.

 

Cecha

Testy parametryczne

Testy nieparametryczne

Założenia dotyczące rozkładu populacji

Wymagają spełnienia określonych założeń

Nie wymagają spełnienia założeń, np. normalność rozkładu, homogeniczność wariancji

Informacje o populacji

Wykorzystują informacje o parametrach populacji

Nie wykorzystują informacji o parametrach populacji

Moc testu

Zazwyczaj mają większą moc niż testy nieparametryczne

Mają mniejszą moc niż testy parametryczne

Przykładowe testy

Test t-Studenta, ANOVA

Test Wilcoxona, test Kolmogorowa-Smirnowa

Tabela 1. Porównanie głównych cech testów parametrycznych i nieparametrycznych

 

Test parametryczny a nieparametryczny – jak dokonać wyboru?

Na koniec zastanówmy się nad tym, jak możemy dokonać wyboru odpowiedniego testu do analizy danych. Wybór między testem parametrycznym a nieparametrycznym zależy od wielu czynników, w tym od rodzaju danych, założeń dotyczących rozkładu danych i celu badania. Oto kilka czynników, które mogą pomóc w zdecydowaniu, który rodzaj testu jest odpowiedni.

  1. Założenia testu. Testy parametryczne mają konkretne założenia, takie jak normalność rozkładu i równość wariancji. Jeśli dane są zbliżone do rozkładu normalnego i spełniają pozostałe założenia dla testu, można wybrać test parametryczny. Jeśli natomiast założenia nie są spełnione, lepszym wyborem mogą być testy nieparametryczne.
  2. Poziom pomiaru. Testy parametryczne są bardziej odpowiednie do danych mierzonych na skali interwałowej lub ilorazowej, gdzie można dokładnie określić różnice między wartościami. Testy nieparametryczne są bardziej elastyczne i można je stosować do różnych skal pomiaru, w tym do danych porządkowych lub nominalnych.
  3. Wielkość próby badawczej. W przypadku małych prób testy nieparametryczne mogą być bardziej odpowiednie, ponieważ testy parametryczne mogą wymagać spełnienia założeń dotyczących rozkładu, które są trudniejsze do spełnienia w przypadku małych prób.
  4. Cel badania. Jeśli celem jest porównanie median, analiza związku między zmiennymi porządkowymi lub ocena różnic w rozkładzie danych, testy nieparametryczne mogą być lepszym wyborem.

Ostateczny wybór między testem parametrycznym a nieparametrycznym zależy od konkretnego przypadku badawczego i danych, które analityk ma do dyspozycji. Ważne jest, aby dokładnie rozważyć powyższe czynniki i wybrać odpowiedni test na podstawie kontekstu badania oraz charakterystyki danych.

 

Testy parametryczne

Testy nieparametryczne

 

Test t-Studenta (jedna próba)

Test Wilcoxona

 

Test t-Studenta (dwie próby zależne)

Test Wilcoxona dla prób zależnych

 

Test t-Studenta (dwie próby niezależne)

Test U Manna-Whitneya

 

Jednoczynnikowa analiza wariancji (ANOVA)

Test Kruskala-Wallisa

 

Tabela 2. Popularne testy parametryczne i ich nieparametryczne odpowiedniki

 

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy

PS IMAGO PRO

Przykład zastosowania w PS IMAGO PRO

Korzystając z PS IMAGO PRO, analityk ma dostęp do narzędzi, które pozwalają mu w szybki i prosty sposób sprawdzić założenia dla testów statystycznych. Program ten umożliwia także wykonanie odpowiedniej analizy i wizualizacji danych. Przykład, który prześledzimy, dotyczy testu parametrycznego t-Studenta, który służy do porównywania średnich dwóch niezależnych grup. Załóżmy, że chcemy sprawdzić, czy średni wzrost mężczyzn jest wyższy od średniego wzrostu kobiet.

Hipotezy są następujące:

  • Hipoteza zerowa (H0): Średni wzrost mężczyzn nie różni się od średniego wzrostu kobiet.
  • Hipoteza alternatywna (H1): Średni wzrost mężczyzn jest wyższy niż średni wzrost kobiet.

Aby to zrobić, pobieramy losowe próby z populacji mężczyzn i kobiet. Następnie weryfikujemy założenia, aby sprawdzić, czy dla zebranych danych możemy zastosować test t. 

W pierwszej kolejności warto sprawdzić, czy nasze porównywane grupy są równoliczne. Jeśli mamy wątpliwość co do tego, czy grupy są równoliczne, to należy skorzystać z testu zgodności chi-kwadrat.   Jeśli chcemy wyrównać liczebność kategorii zmiennej, z menu Predictive Solutions możemy wybrać procedurę Balansuj rozkład.

W kolejnym kroku sprawdzamy założenie o normalności analizowanych rozkładów zmiennych. W tym celu w PS IMAGO PRO warto skorzystać z procedury Eksploracja, która daje analitykowi pełny zestaw statystyk opisowych, np. średnie, odchylenia standardowe, wartość skośności, kurtozy itp. Dodatkowo analityk może wygenerować histogramy oraz wykresy normalności z testami Kołmogorowa-Smirnowa oraz Shapiro-Wilka, które pozwalają jednoznacznie określić czy to założenie jest spełnione, czy też nie. Jeśli założenie o normalności rozkładów nie jest spełnione, analityk może wybrać jeden z dostępnych testów nieparametrycznych, w tym przypadku byłby to test U Manna-Whitneya.

Następnie należy zweryfikować założenie o jednorodności wariancji w analizowanych grupach. W tym celu możemy skorzystać z testu Levene'a, dostępnego w procedurze Eksploracja.

Jeśli powyższe założenia są spełnione, można przejść do wykonania testu t dla prób niezależnych. Dla ułatwienia pracy analityka, w tabeli wynikowej testu t jest również prezentowana wartość testu Levene’a.

Jeśli różnica średnich jest istotna statystycznie, to w tym przykładzie możemy uznać, że obie grupy różnią się pod względem wzrostu. 

Podsumowanie

Wybór testu zależy od rodzaju danych, celu analizy i spełnienia założeń testów parametrycznych. Jeśli dane nie spełniają założeń w przypadku testów parametrycznych, to warto wybrać testy nieparametryczne, które są mniej restrykcyjne w swoich wymaganiach dotyczących danych. Jednak testy parametryczne, gdy spełnione są odpowiednie założenia, często mają większą moc statystyczną. Dlatego ważne jest, aby dokładnie zrozumieć dane, które chcemy analizować i wybrać odpowiedni test statystyczny w zależności od sytuacji.


Udostępnij artykuł w social mediach:


Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe