Wykres kolumnowy i słupkowy
Wykres kolumnowy i słupkowy są jednymi z graficznych sposobów prezentowania rozkładu badanej cechy. Tego rodzaju wykresy składają się z prostokątów umieszczonych na osi x lub osi y. Prostokąty są wyznaczane przez analizowane kategorie danej zmiennej, a ich wysokość jest określona przez liczebności elementów znajdujących się w danej kategorii. Za pomocą tego rodzaju wykresów możliwe jest graficzne przestawienie rozkładu badanej cechy lub cech, co w konsekwencji pozwala lepiej zrozumieć zmienne, czy też zjawisko, które analizujemy.
Wykresy kolumnowe i słupkowe są jednym z najpopularniejszych typów wizualizacji danych. Można za ich pomocą np. przedstawić liczbę respondentów w podziale na województwa, popularność filmów wyświetlanych w kinie, czy też liczbę sprzedanych produktów oferowanych przez sklep. Pomimo tego, że potocznie wykres kolumnowy i słupkowy są używane zamiennie, to warto je rozróżnić. Wykres kolumnowy to wykres prezentujący prostokąty dla danych w pionie, a wykres słupkowy prezentuje dane w orientacji poziomej.
Wykres 1. Wykres kolumnowy i wykres słupkowy
Wykresy tego rodzaju stosujemy najczęściej do danych jakościowych, tj. do zmiennych nominalnych oraz porządkowych ale warto również pamiętać, że za pomocą tego rodzaju wykresu możemy zaprezentować także dane dla zmiennej ilościowej oraz zmiennej jakościowej. Poniżej zaprezentowano na wykresie słupkowych 10 filmów o największych przychodach w 2021 roku w USA.
Wykres 2. Top 10 filmów o największych przychodach w USA w 2021 r. (wartości w $). Źródło: https://www.boxofficemojo.com/year/2021/
Niezależnie od tego, czy ustawimy słupki pionowo czy poziomo należy zwrócić uwagę na kolejność ich ułożenia. W przypadku zmiennych nominalnych najczęściej analitykowi zależy na tym, aby przedstawione kategorie zostały posortowane według wartości prezentowanych na słupkach, co pozwoli odbiorcy łatwo odnaleźć kategorie najliczniejsze i najmniej liczne. W przypadku zmiennych porządkowych należy pamiętać o tym, że poszczególne kategorie tej zmiennej mają już swój naturalny porządek i w tym przypadku prezentujemy dane bez ich sortowania.
Wykres kolumnowy i słupkowy - przykłady
Przyjrzyjmy się bliżej wykresom kolumnowym i słupkowym. Wykresy tego typu są proste do odczytania. Porównując szczytowe punkty słupków lub kolumn widzimy największe oraz najmniejsze wartości i łatwo można określić jak przedstawia się różnica między kategoriami.
Gdy etykiety kategorii są zbyt długie i nie mieszczą się pod słupkami na osi x, warto taki wykres kolumnowy zamienić na słupkowy. Taki układ pozwala na łatwiejsze odczytanie prezentowanych danych.
Wykres 3. W przypadku długich etykiet kategorii warto zaprezentować dane na wykresie słupkowym.
Ze względu na to, jak nasz wzrok porównuje zależności między słupkami bądź kolumnami, warto pamiętać o tym, aby taki wykres zaczynać na osi od punktu 0, gdyż w przeciwnym wypadku może to tworzyć mylny przekaz dla odbiorcy. Na dwóch wykresach poniżej zaprezentowano te same dane, które dotyczą średniej wartości płac w jednym z przedsiębiorstw w okresie trzech lat. Przyglądając się wykresowi u góry można odnieść wrażenie, że zarobki co roku rosną nawet o 50%. Jeśli przyjrzymy się skali to widzimy, że nie zaczyna się od 0 tylko od wartości 2900. Dodatkowo na tym wykresie nie są wyświetlone etykiety, co również ma wpływ na odbiór prezentowanych danych.
Wykres 4. Manipulacja skalą może powodować mylny odbiór prezentowanych danych
Wykres zgrupowany i zestawiony
W przypadku wykresów kolumnowych i słupkowych mamy możliwość prezentowania jednej, dwóch lub wielu serii danych. Dodając kolejną zmienną możemy przygotować wykresy zgrupowane i zestawione. W zgrupowanym wykresie słupkowym lub kolumnowym każda kategoria dodanej zmiennej będzie zawierać po jednym słupku/kolumnie dla każdej kategorii głównej zmiennej.
Wykres 5. Przykładowy zgrupowany wykres kolumnowy (ilość sprzedaży wg. typu produktu i kraju)
W przypadku zestawionego wykresu słupkowego każde zestawienie składa się z słupka podzielonego na segmenty ustawione jeden na drugim. Wysokość każdego segmentu odpowiada jego wartości. Każdemu poziomowi zmiennej kategorii odpowiada jeden zestawiony słupek.
Wykres 6.Przykładowy zestawiony wykres słupkowy (wykształcenie badanych a miejsce zamieszkania)
W przypadku gdy na wykresach zestawionych i zgrupowanych chcemy prezentować wartości procentowe, mamy możliwość wskazania, według której zmiennej mają być liczone wartości procentowe. Możemy wyliczyć podsumowanie dla całości, łącznie dla każdej kategorii zmiennej osi x lub łącznie dla każdej kategorii zmiennej grupującej.
Histogram
Omówmy teraz czym jest histogram i czym się różni od wykresu słupkowego czy też kolumnowego. Histogram to wykres kolumnowy, w którym kolumny (prostokąty) przylegają do siebie i których wysokość wskazuje liczebność występowania badanej cechy, u podstawy wykresu (oś x) są natomiast przedstawione przedziały klasowe danej zmiennej. Histogram jest wykresem, który wykorzystamy do prezentowania danych ilościowych, np. wieku, dochodów, wzrostu czy też wagi badanych. Warto pamiętać, że każdy histogram jest wykresem kolumnowym, jednak nie każdy wykres kolumny jest histogramem. Histogram często jest wykorzystywany w początkowej fazie pracy z danymi, kiedy to analityk chce sprawdzić jak wygląda rozkład zmiennej ilościowej. Histogram pozwoli szybko ocenić, czy zmienna ma rozkład zbliżony do rozkładu normalnego[1], czy rozkład jest skośny, jednomodalny czy też może wielomodalny itp.
Wykres 7. Przykładowy histogram z krzywą normalną
Podsumowując, wykresy kolumnowe i słupkowe są bardzo popularnymi typami wykresów. Ich dużą zaletą jest to, że są proste w interpretacji. W przypadku danych z długimi etykietami kategorii rozwiązaniem może być zastosowanie wykresu słupkowego. Wykresy kolumnowe i słupkowe można stosować do zmiennych jakościowych jak i również kombinacji zmiennych jakościowych i ilościowych. W przypadku danych ilościowych dobrze sprawdzi się histogram, który nie tylko zobrazuje rozkład zmiennej ale również pozwoli porównać go z krzywą normalną.
[1] W celu dokładnego sprawdzenia, czy rozkład zmiennej jest zbliżony do rozkładu normalnego będziemy stosować testy normalności np. test Shapiro-Wilka lub Kołmogorowa-Smirnowa.