Istotność statystyczna

Tekst przeczytasz w: 4 minuty.

Poziom istotności statystycznej jest jednym z najważniejszych aspektów analizy danych, wykorzystywanym przy większości stosowanych testów. Poziom istotności to punkt odcięcia określający prawdopodobieństwo, że otrzymany wynik wystąpił w próbie przypadkowo. Mówiąc bardziej statystycznie – że błędnie odrzucona została hipoteza zerowa (tzw. błąd pierwszego rodzaju), która zakłada brak różnic między badanymi próbami.

Sprawdź również:

Istotność statystyczna (α) pozwala ustalić, że np. zarobki rzeczywiście korelują ze stażem pracy, czy też że średnie wydatki klientów różnią się w zależności od tego, czy już wcześniej dokonywali w danej firmie zakupu. Aby korzystać z różnych testów statystycznych muszą jednak zostać spełnione pewne kryteria, takie jak losowość próby z populacji.

Rysunek 1. Rozkłady prawdopodobieństwa zgodne z hipotezą zerową (H0) oraz z hipotezą alternatywną (H1). Zamalowany obszar przedstawia przyjęty poziom istotności statystycznej (α).

Rysunek 1. Rozkłady prawdopodobieństwa zgodne z hipotezą zerową (H0) oraz z hipotezą alternatywną (H1).
Zamalowany obszar przedstawia przyjęty poziom istotności statystycznej (α).

 

Wartość poziomu istotności

Wartość poziomu istotności statystycznej nie jest arbitralnie narzucona, niemniej jednak często przyjmowanym progiem istotności jest α = 0,05. Oznacza to przyjęcie ryzyka rzędu 5%, że wykazane efekty w rzeczywistości nie występują. W przypadku, gdy testowana hipoteza jest kierunkowa, wartość α powinna zostać podzielona przez 2 (rys. 1). W tym wypadku wynosiłaby więc α = 0,025.

Chcesz wiedzieć więcej?

Zapraszamy na szkolenie ST 1. Podstawy statystyki dla każdego

 

Można przyjąć również bardziej rygorystyczne wartości np. α = 0,01, czy nawet α = 0,001, gdzie ryzyko błędu wynosi odpowiednio 1% oraz 0,1%. W nieco rzadszych przypadkach (zdarza się np. w naukach społecznych), przyjmowany poziom istotności może wynosić α = 0,1, co oznacza, że jest się gotowym przyjąć ryzyko rzędu 10%, że otrzymane wyniki w próbie nie mają odzwierciedlenia w populacji.

Decyzja o przyjętym poziomie istotności powinna być więc świadomym wyborem badacza, opartym na charakterystyce posiadanych danych, naturze problemu czy też postawionych hipotezach.

 

Wartość p

Poziom istotności statystycznej dla danego wyniku weryfikuje się poprzez wykonanie testu istotności statystycznej. Efektem jego wykonania jest wartość istotności statystycznej (p, ang. p-value), którą następnie należy porównać do przyjętej wartości poziomu istotności (α). Jeśli wartość p jest mniejsza lub równa wartości α, możemy (w kategoriach statystycznych) odrzucić hipotezę zerową, która zazwyczaj zakłada brak różnic.

Jeśli wartość p jest większa od przyjętego poziomu, hipoteza zerowa nie może zostać odrzucona. Dla przykładu, poniższa tabela (tab.1) prezentuje wyniki dla zależności między zmiennymi ilość posiadanych dzieci oraz ilość pokoi w gospodarstwie domowym, gdzie współczynnik korelacji Pearsona wynosi r = 0,45, natomiast wartość p = 0,058 jest większa od zakładanego poziomu istotności α = 0,05. Pomimo, że sam współczynnik r sugeruje istnienie umiarkowanie silnej korelacji między zmiennymi, wynik ten nie jest istotny statystycznie.

Tabela 1. Wyniki analizy korelacji dla związku między posiadaną ilością dzieci a ilością pokoi w gospodarstwie domowym.

Tabela 1. Wyniki analizy korelacji dla związku między posiadaną
ilością dzieci a ilością pokoi w gospodarstwie domowym.

 

Coraz częściej można jednak spotkać się z podejściem, w którym odchodzi się od interpretowania wartości p dzielącego arbitralnie wyniki na istotne i nieistotne statystycznie. Zamiast tego, raportuje się jedynie otrzymane wyniki, pozostawiając czytelnikom przestrzeń na samodzielne ustosunkowanie się do nich. Podczas, gdy wartości p < 0,001 czy p = 0,963 będą przez większość osób interpretowane w ten sam sposób, przy mniej jednoznacznych wartościach p takie podejście może być szczególnie wartościowe.

W przywołanym przykładzie (tab. 1), wartość p = 0,058 jest niewiele większa od przyjętego poziomu istotności – można oczywiście zdecydować się na brak odrzucenia hipotezy zerowej (bo p > α), jednak z praktycznego punktu widzenia, ten wynik wcale nie musi definitywnie negować badanego efektu. Nie można z całą pewnością stwierdzić, że zależność ta w rzeczywistości w populacji nie występuje. Na wartość p mogą wpływać takie aspekty jak mała wielkości próby, źle dobrana metoda analizy czy inne błędy metodologiczne.

Raportując otrzymane wyniki należy podać wszystkie kluczowe dla danego testu wartości (np. wartość współczynnika, stopnie swobody etc.), nawet jeśli nie jest on istotny statystycznie. Dodatkowo, wartość p zwyczajowo podaje się z dokładnością do trzech miejsc po przecinku[1]. W tym przykładzie byłoby to zatem: „(r = 0,45, p = 0,058)”.

Często zdarza się, że otrzymywane wyniki, choć istotne statystycznie, niekoniecznie świadczą o silnym związku między zmiennymi. Taką sytuację prezentuje poniższa tabela (tab. 2), gdzie w badanej próbie osób dorosłych wykazano istotną statystycznie (p = 0,028) negatywną korelację między wzrostem a ilością posiadanych dzieci, natomiast zależność ta będzie przez większość badaczy interpretowana jako słaba (r = -0,26).

Tabela 2. Wyniki analizy korelacji dla związku między posiadaną ilością dzieci a wzrostem w badanej grupie dorosłych osób.

Tabela 2. Wyniki analizy korelacji dla związku między posiadaną
ilością dzieci a wzrostem w badanej grupie dorosłych osób.

 

Istotność statystyczna a rodzaj analizy

Istotność statystyczna pozwala na zweryfikowanie hipotez stawianych przez testy statystyczne. Wartość p mniejsza od wyznaczonego poziomu istotności statystycznej pozwala na odrzucenie hipotezy zerowej mówiącej o braku różnic między grupami lub pomiarami. Celem większości wykonywanych analiz jest wykazanie istnienia pewnych różnic, a więc pożądanym wynikiem jest p ≤ α.

Istnieją również jednak analizy, w których chcemy, aby wartość p była większa od α i pozwalała, aby hipoteza zerowa nie została odrzucona. Zazwyczaj są to testy weryfikujące założenia wybranej analizy statystycznej. Przykładem może tu być test Levene’a badający jednorodność wariancji, wykorzystywany w analizie wariancji ANOVA czy teście t-Studenta dla prób niezależnych.

 

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO

Podsumowanie

Istotność statystyczna jest jedną z kluczowych statystyk wykorzystywaną w analizie danych. Pozwala ona na określenie z jakim prawdopodobieństwem otrzymany wynik odzwierciedla rzeczywistą sytuację w populacji. Poziom istotności statystycznej określa punkt, w którym skłonni jesteśmy odrzucić hipotezę zerową.

Należy mieć na uwadze, że wartość p nie jest wyznacznikiem wartościowego badania – nie powinniśmy bać się publikować również tych wyników, które w świetle teorii nie są istotne statystycznie. Mogą one stanowić nieocenioną podstawę do dalszych prac nad zagadnieniem, nadawać lub korygować ich kierunek, czy też weryfikować dotychczasową wiedzę.

 

 

[1] por. American Psychological Association (2019). Publication manual (7th ed.).


Oceń artykuł:

Udostępnij artykuł w social mediach



Zostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.