Indeks Giniego

Tekst przeczytasz w:  4 minuty

Indeks Giniego jest miarą koncentracji rozkładu zmiennej.

Indeks Giniego jest miarą koncentracji rozkładu zmiennej. W statystyce jest on powszechnie stosowany do opisu koncentracji (nierównomierności) rozkładu zmiennej losowej, natomiast najpopularniejszym zastosowaniem w ekonomii jest jego wykorzystanie jako miary stopnia nierówności dochodowej.

 

Indeks Giniego jako miara zróżnicowania zmiennych jakościowych

Indeks Giniego stosowany jest również jako miara zmienności dla zmiennych jakościowych, kategorialnych. Z danymi kategorialnymi spotykamy się w wielu rodzajach analiz, bardzo często w takich dziedzinach nauki jak socjologia, ekonomia czy biostatystyka. Jedną z miar wykorzystywaną do analizy zróżnicowania jest właśnie indeks Giniego wyrażony wzorem:

Wzór indeks giniego

gdzie:

k - liczba kategorii zmiennej,

P(x) - prawdopodobieństwo przynależności do danej kategorii.

Wartość indeksu Giniego informuje o tym, jaka jest zmienność badanej zmiennej jakościowej. Można go porównać do wariancji i odchylenia standardowego obliczanych dla zmiennych ilościowych.

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

ST 1. Podstawy statystyki dla każdego

Indeks Giniego opisujący koncentracje rozkładu zmiennych jakościowych może przyjmować wartości od zera, górna granica nie jest natomiast ściśle określona. Maksymalna wartość jaką może przyjmować indeks Giniego zależy od liczby kategorii zmiennej. Gdyby zmienna miała dwie kategorie to maksymalna zmienność wyniosłaby 0,5, natomiast gdyby były to cztery kategorie, to każda z nich zawierałaby 25% obserwacji, więc wskaźnik Giniego wyniósłby 0,75. Należy pamiętać, że liczba kategorii wpływa tylko na wartość maksymalnej zmienności jaka może zostać osiągnięta dla danej zmiennej. Minimalna wartość zawsze wynosi zero i oznacza brak zmienności – pewność w podejmowaniu decyzji. Taka sytuacja ma miejsce, gdy wszystkie obserwacje należą tylko do jednej kategorii zmiennej. Oznacza to, że gdybyśmy chcieli na podstawie takiego rozkładu zmiennej przewidywać, czy obserwacja należy do konkretnej kategorii, to w 100% przypadków mielibyśmy rację.

W celu objaśnienia posłużymy się przykładem zmiennej płeć mającej dwie kategorie – kobieta i mężczyzna. Analizując zmienność będziemy posługiwać się procentowym udziałem osób w każdej kategorii.

Analiza zmienności zmiennej posiadającej dwie kategorie

Tabela 1. Analiza zmienności zmiennej posiadającej dwie kategorie

Tabela 1 przedstawia trzy różne przypadki rozkładu zmiennej płeć. W pierwszym przypadku (przykład 1) wszystkie osoby biorące udział w badaniu to kobiety. Posługując się wzorem przytoczonym na początku, obliczamy wskaźnik Giniego: gini1. Wskaźnik Giniego przyjmie wartość 0, co oznacza, że w tym przykładzie cecha wykazuje brak zmienności, czyli pewność przy podejmowaniu decyzji.

Patrząc na rozkład zmiennej płeć w drugim przykładzie zauważamy, że 60% osób biorących udział w badaniu to kobiety, a 40% to mężczyźni – występuje umiarkowana zmienność. Gdybyśmy chcieli na podstawie tego rozkładu przewidywać, czy osoba ankietowana jest kobietą, to pomylilibyśmy się w 40% przypadków. Obliczając wskaźnik Giniego dla takiego rozkładu zmiennej nominalnej otrzymujemy: .

Ostatnia kolumna tabeli (przykład 3) przedstawia rozkład zmiennej, w której mamy maksymalną zmienność. Jak już zostało wspomniane, minimalna wartość indeksu Giniego wynosi zero, co oznacza brak zmienności , natomiast maksymalna, jaka może zostać osiągnięta, zależy od liczby kategorii zmiennej. Zatem w przypadku płci, maksymalną zmienność osiągniemy, gdy na każdą z kategorii będzie przypadało 50% obserwacji. Współczynnik Giniego wyniesie więc 0,5 i będzie to maksymalna zmienność jaka może zostać osiągnięta dla zmiennej posiadającej dwie kategorie.

Analogicznie gdybyśmy analizowali zmienną z czterema kategoriami, maksymalną zmienność (na poziomie 0,75) osiągniemy, gdy każda z kategorii będzie zawierała 25% obserwacji.

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

ST 2. Budowanie modeli predykcyjnych z użyciem klasycznych technik statystycznych

 

Indeks Giniego dla zmiennych jakościowych w PS IMAGO PRO

Spójrzmy na przykład wykorzystania współczynnika Giniego dostępnego w procedurze Audyt danych w PS IMAGO PRO. Procedura udostępnia obliczenie wartości indeksu Giniego oraz tego, jaki procent wartości maksymalnej indeksu Giniego stanowi jego wartość obliczona dla analizowanej zmiennej (Gini w porównaniu z wartością maksymalną – Tabela 3). Należy pamiętać o tym, że wartość maksymalna indeksu Giniego jest zmienna i zależy od liczby kategorii analizowanej cechy.

Przyjrzyjmy się rozkładowi zmiennej prezentującej ukończony kierunek studiów osób biorących udział w pewnym badaniu ankietowym.

Rozkład zmiennej kierunek studiów

Tabela 2. Rozkład zmiennej kierunek studiów

Zmienna posiada cztery kategorie, a więc możemy wnioskować, że maksymalna wartość współczynnika Giniego wyniesie 0,75 . Przypomnijmy – minimalna wartość współczynnika wyniesie 0 w przypadku braku zmienności, np. gdy wszystkie osoby ankietowane stwierdzą, że ukończyły kierunek Prawo.

Tabela poniżej przedstawia wartość indeksu Giniego oraz Gini w porównaniu z wartością maksymalną – czyli procent maksymalnej zmienności możliwej do osiągnięcia dla tej zmiennej.

Gini

Tabela 3. Gini (wartość) oraz Gini (procent) w porównaniu z
wartością maksymalną dla zmiennej kierunek studiów

Wartość indeksu Giniego dla zmiennej reprezentującej kierunek studiów wynosi 0,7, co wskazuje na dużą zmienność. Maksymalna możliwa do osiągnięcia zmienność wynosi 0,75, Gini w porównaniu do wartości maksymalnej wynosi 97% – co oznacza, że zmienność kierunku studiów stanowi 97% maksymalnej zmienności jaką może przyjąć ta zmienna.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy

PS IMAGO PRO

Podsumowując powyższe przykłady widzimy, że indeks Giniego poza powszechnymi zastosowaniami takimi jak mierzenie nierówności dochodowej, możemy wykorzystywać do analizy zróżnicowania zmiennych w danych kategorialnych występujących w wielu dziedzinach nauki i biznesu.


Udostępnij artykuł w social mediach:


Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe