Miary asymetrii i koncentracji rozkładu zmiennej
Kurtoza i skośność to miary asymetrii opisujące takie własności jak kształt i asymetria analizowanego rozkładu. Dostarczają nam informacji, w jaki sposób wartości zmiennych odchylają się porównując do wartości średniej. Pozwalają nam więc odpowiedzieć na pytanie, czy średnia znajduje się w centrum rozkładu (a więc jest bliska medianie), jak poszczególne obserwacje są rozproszone wokół tej średniej i jaka jest intensywność obserwacji skrajnych.
Czym jest skośność i o czym informuje?
Skośność jest statystyką umożliwiającą porównanie rozkładu analizowanej zmiennej z hipotetycznym rozkładem normalnym. Wskazuje na rozbieżności pomiędzy wartością średnią, a centrum danego rozkładu. Natomiast jak wiadomo średnia charakteryzuje się brakiem odporności na wartości skrajne. Dlatego też jeżeli podczas analizy rozkładu danej zmiennej zauważymy występowanie nietypowych małych lub dużych wartości to można wnioskować, że średnia została „przeciągnięta” przez te wartości skrajne w prawą lub lewą stronę. Na przykład w sytuacji, gdy przez nietypowe małe wartości średnia zostaje „przeciągnięta” w lewą stronę, a więc na wykresie można zaobserwować wydłużony lewy ogon rozkładu mówimy o wystąpieniu rozkładu skośnego lewostronnie.
Jak interpretować współczynnik skośności (asymetrii)?
Współczynnik skośności może przyjmować wartości ujemne, równe zero, ale też dodatnie. W zależności od wartości współczynnika przyjmuje się interpretacje:
- – lewostronna skośność
- Mo > Me >
- wydłużony lewy ogon rozkładu
- – rozkład symetryczny
- Mo = Me =
- – prawostronna skośność
- Mo < Me <
- wydłużony prawy ogon rozkładu
Mo - dominanta
Me - mediana
- średnia
Rysunek 1. Typy rozkładów ze względu na wartość współczynnika skośności
Czym jest kurtoza i o czym informuje?
Kurtozę również wykorzystujemy do porównania rozkładu analizowanej zmiennej z hipotetycznym rozkładem normalnym, w którym rozproszenie obserwacji wokół średniej jest stosunkowo równomierne i nie występują obserwacje skrajnie odstające. W zależności od wartości kurtozy wykreślony rozkład może mieć „grubsze” lub „węższe ogony”, na co wpływ ma intensywność wartości skrajnych.
Ze względu na jej wartość wyróżniamy trzy typy rozkładów:
- leptokurtyczny (K>0) – rozkład ma tzw „grube ogony”, czyli intensywność wartości skrajnych jest większa niż w rozkładzie normalnym.
- mezokurtyczny (K=0) - rozkład jest zbliżony do normalnego.
- platykurtyczny (K<0) – rozkład ma „węższe ogony” niż rozkład normalny, intensywność wartości ekstremalnych jest mniejsza niż w przypadku rozkładu normalnego.
Rysunek 2. Typy rozkładów ze względu na wartość kurtozy
Przyjrzyjmy się przykładowej analizie rozkładu trzech zmiennych takich jak wiek klienta, jego wydatki oraz cena pewnego produktu. Poniżej podstawowe statystyki opisowe istotne z punktu widzenia tego artykułu.
Tabela 1. Wybrane statystyki
opisowe dla analizowanych zmiennych
Dla zmiennej wydatki można wnioskować, że rozkład będzie lewostronnie skośny (wartość skośności < 0) i będzie posiadał „grube ogony” biorąc pod uwagę wartość kurtozy.
W przypadku zmiennej wiek zarówno wartość skośności jak i kurtozy jest bliska 0, co może świadczyć o podobieństwie rozkładu tej zmiennej do rozkładu normalnego.
Na podstawie wartości skośności wyznaczonej dla zmiennej cena, można wnioskować, że jej rozkład będzie charakteryzował się silną asymetrią prawostronną oraz większą intensywnością wartości skrajnych niż w rozkładzie normalnym, na co wskazuje wysoka wartość kurtozy.
Jak już przenalizowaliśmy wartości statystyk z tabeli, warto jeszcze przyjrzeć się poniższym wizualizacjom (histogramy) dla rozkładu analizowanych zmiennych, wzbogaconym o krzywą rozkładu normalnego. Często to właśnie na podstawie wykresów możemy szybko wychwycić pewne zależności i cechy rozkładów analizowanych zmiennych.
Na histogramie zmiennej wydatki można zaobserwować, że lewy ogon rozkładu jest widczonie wydłużony, co wskazuje na lewostronną skośność. Dodatkowo zauważmy, że obserwacje częściej przyjmują wartości skrajne niż wynikałoby to z rozkładu normalnego (patrz lewy „gruby ogon” rozkładu).
Rysunek 3. Histogram zmiennej wydatki
W przypadku zmiennej wiek, tak jak zauważyliśmy na podstawie wartości skośności oraz kurtozy rozkład można uznać za zbliżony do rozkładu normalnego. Na wykresie nie ma zauważalnej asymetrii rozkładu (żaden z jego ogonów nie jest nadmiernie rozciągnięty) ani nadmiernej intensywności obserwacji odstających jak w przypadku rozkładu zmiennej wydatki.
Rysunek 4. Histogram zmiennej wiek
Ostatni histogram przedstawia rozkład zmiennej cena. Na pierwszy rzut oka można zauważyć dwie własności rozkładu tej zmiennej. Pierwszą jest widocznie wydłużony prawy ogon rozkładu, co wskazuje na jego silną, prawostronną skośność. Po drugie widzimy, że obserwacje znacznie częściej przyjmują wartości skrajne (patrz prawy „gruby ogon” rozkładu) niż byśmy tego oczekiwali porównując do rozkładu normalnego.
Rysunek 5. Histogram zmiennej cena
Podsumowując… skośność i kurtoza to miary, którymi analityk posługuje się szukając odpowiedzi na pytanie jak poszczególne obserwacje są rozproszone wokół średniej, jaka jest intensywność występowania obserwacji skrajnych i czy średnia rzeczywiście znajduje się w centrum analizowanego rozkładu.
Na początku pracy z danymi szczególnie przydatne jest przedstawienie rozkładów analizowanych zmiennych na histogramach, co pozwala w łatwy i szybki sposób wychwycić najważniejsze właściwości, takie jak omówiona asymetria czy sposób koncentracji obserwacji.