Dominanta, mediana i średnia – miary tendencji centralnej

Tekst przeczytasz w: 3 minuty.

Miary tendencji centralnej pozwalają odpowiedzieć na pytanie jaka wartość jest typowa dla badanej zmiennej. Podstawowymi miarami tendencji centralnej jest dominanta, mediana oraz średnia arytmetyczna.

Dominanta

Dominanta wskazuje, jaka wartość występuje najczęściej w zbiorze wyników. Dominantę inaczej nazywaną też modą lub modalną można wyznaczyć i intepretować już dla zmiennych na nominalnym poziomie pomiaru. Nie każda zmienna może mieć dominantę, ze względu na brak wartości występujących częściej niż inne. Ważną cechą dominanty jest to, że nie mają na nią wpływu wartości skrajne.

Kolejną cechą dominaty jest również to, że jest podatna na kategoryzację zmiennej, czyli na zasady, które przyjmiemy grupując wartości. Omówmy to na przykładzie wyników pytania o wykształcenie. Wykształcenie średnie możemy opisać za pomocą jednej kategorii, która obejmuje respondentów, który zaczęli jakikolwiek rodzaj średniej edukacji, lub za pomocą 3 różnych kategorii, które rozróżnią poziom tego wykształcenia (pełne / niepełne) i jego typ szkoły (ogólnokształcąca / zawodowa).

W poniższym przykładzie widać, że dla zmiennej wykształcenie, która ma 9 kategorii, dominanta znajduje się w kategorii „Zasadnicze zawodowe”. Po połączeniu kategorii dominanta znajduje się w innej kategorii niż przed łączeniem (w tym przykładzie jest to kategoria „Średnie”).

Tabela 1. Wpływ kategoryzacji na pozycję dominanty

Tabela 1. Wpływ kategoryzacji na pozycję dominanty

 

W przypadku szeregów przedziałowych można jedynie określić przedział, w którym znajduje się dominanta. W takim przypadku dominantę można wyliczyć ze wzoru:

Gdzie:

 

Mediana

Mediana dla zbioru wartości zmiennej, to wartość, która dzieli zmienną na dwie równe części. Oznacza to, że połowa obserwacji przyjmuje niższą wartość, a druga połowa – wyższą. Jeżeli mediana wynagrodzeń w styczniu 2021 wyniosła 5536,80 zł brutto, oznacza to, że 50% badanych zarabiało powyżej tej kwoty, a pozostałe 50% - poniżej.

Medianę można wyznaczyć dla zmiennych od porządkowego poziomu pomiaru. Mediana dla zmiennych porządkowych nie ma sensu liczbowego, jest charakterystyką pozycyjną rozkładu i wskazuje, do której kategorii, uporządkowanych pod względem nasilenia cechy należy środkowa wartość. W przypadku mediany warto wskazać na trzy jej ważne cechy: łatwość wyliczenia tej miary, odporność na wpływ obserwacji z wartościami skrajnymi oraz to, że bierze pod uwagę cały rozkład, a nie tylko drobną część, tak jak to może być przy obliczaniu dominanty.

Medianę obliczamy ze wzoru:

Aby móc korzystać z tego wzoru, wartości zmiennej muszą być posortowane.

Jeżeli występuje nieparzysta liczba wartości, to mediana jest równa wartości występującej w środku uporządkowanego szeregu wartości zmiennej. Przykładowo, dla szeregu składającego się z 11 obserwacji, wartość środkowa to wartość obserwacji z numerem 6 (patrz tabela 2). Mediana dla zmiennej A wynosi 14 i jak widać z tabeli, połowa obserwacji ma wartości mniejsze od 14, a druga połowa większe.

Tabela 2. Mediana – nieparzysta liczba obserwacji

Tabela 2. Mediana – nieparzysta liczba obserwacji

 

W przypadku, gdy liczba obserwacji jest parzysta, wyciągana jest średnia z dwóch „środkowych” obserwacji. Dla szeregu składającego się z 10 obserwacji średnia jest wyliczana z wartości 5-tej i 6-stej obserwacji. Przykładowo w tabeli 3 mediana wynosiła 13,5 i tak jak poprzednio połowa obserwacji ma wartość poniżej mediany a druga połowa powyżej.

Tabela 3. Mediana – parzyste liczba obserwacji

Tabela 3. Mediana – parzyste liczba obserwacji

 

Średnia arytmetyczna

Przejdźmy teraz do omówienia średniej arytmetycznej. Tradycyjnie, wartość średnią obliczamy jako sumę wartości danej zmiennej dla wszystkich obserwacji i dzieląc tę sumę przez liczbę obserwacji. Średnią można liczyć dla zmiennych co najmniej na przedziałowym poziomie pomiaru.

Średnia jest przypuszczalnie najczęściej wykorzystywaną miarą typowości, głównie ze względu na jej „techniczne” własności. Równocześnie, ze względu na swoją konstrukcję (bazuje na wszystkich wartościach zmiennej), średnia jest wrażliwa na wartości skrajne. Przez to, w niektórych zastosowaniach, do wyznaczenia tendencji centralnej może być bardziej użyteczna dominanta lub mediana.

W danych z tabeli 1 podmienimy ostatnią obserwację z 21 na 100 (patrz tabela 4). Na tym przykładzie łatwo będzie zilustrować, że średnia jest wrażliwa na wartości skrajne. Średnia przed zmianą była równa medianie i wynosiła 14. Po wprowadzeniu pojedynczej skrajnej wartości, mediana się nie zmieni, a średnia wzrośnie z 14 do 21.

Tabela 4. Dane z wartością skrajną

Tabela 4. Dane z wartością skrajną

 

Średnia jako miara tendencji centralnej, sprawdza się najlepiej w rozkładach symetrycznych, czyli wtedy gdy jest równa medianie i dominancie. W przypadku, gdy pojawiają się wartości skrajne w ogonach rozkładu, czyli skrajnie małe lub skrajnie duże wartości, średnia będzie się odpowiednio przesuwać w stronę ogona. Mediana natomiast, ze względu na to, że nie bazuje na pojedynczych wartościach, a bardziej na porównaniu „masy” rozkładu po swojej prawej i lewej stronie, jest mniej wrażliwa na wartości skrajne.

Taką sytuację można zaobserwować na wykresach prezentowanych poniżej. W pierwszym przypadku prezentowany jest rozkład symetryczny, gdzie średnia jest równa medianie (czarna linia). Na drugim wykresie znajduje się rozkład skośny, gdzie czerwoną przerywaną linią oznaczona została średnia a niebieską mediana.

mapka

Wykres 1. Relacja mediana a średnia w rozkładzie symetrycznym i niesymetrycznym

 


Oceń artykuł:

Udostępnij artykuł w social mediach


Zostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.