Przed przystąpieniem do bardziej złożonej analizy danych warto przyjrzeć się rozkładom zmiennych, które nas interesują. Możemy korzystać z tabel częstości, ale również dobrym sposobem na szybkie przyjrzenie się danym jest ich prezentacja na wykresach.W tym celu możemy posłużyć się np. histogramem lub wykresem pudełkowym. Ten ostatni, pomimo swojej prostoty, przedstawia wiele ważnych informacji, które często są określane jako pięć liczb Tukey’a, które opisują zbiór danych.Jest to minimum, maksimum, dolny i górny kwartyl oraz mediana.
Innym wykresem, który również zawiera wiele interesujących analityka informacji dotyczących zmiennej, jest wykres wiolinowy. Wykres ten, często jest również nazywany wykresem skrzypcowym.
Zapraszamy na szkolenie ST 2a. Wizualizacja informacji z użyciem raportów tabelarycznych i wykresów
Wykres wiolinowy można uznać za jeden z wariantów wykresu pudełkowego (skrzynkowego), z tą różnicą, że wykres wiolinowy przedstawia więcej danych, np. szybko możemy dostrzec, czy rozkład prezentowanych zmiennych jest wielomodalny.
Na początku zobaczmy jak wygląda prosty wykres wiolinowy dla jednej zmiennej ilościowej, którą jest wzrost podany w centymetrach.
Jak widzimy, podstawowa forma wykresu wiolinowego bazuje na symetrycznym wykresie gęstości, pokazanym względem pionowej osi. Wizualizacja pokazuje rozkład dla całej zmiennej i na pierwszy rzut oka możemy dostrzec, które wartości występują najczęściej oraz jak ogólnie prezentuje się rozkład zmiennej. Teraz dodajmy dodatkowe elementy wykresu i zobaczmy co oznaczają.
Na wykresie prezentowane są te same dane co na wykresie powyżej, ale w podziale na płeć.
Wykres umożliwia pokazanie rozkładu zmiennej ilościowej w ramach kategorii zmiennej jakościowej. Jak widać, wykres wiolinowy ma kilka elementów wspólnych z wykresem pudełkowym. Na wykresie można wyświetlić dodatkowe statystyki, tj. znacznik pozycji mediany oraz rozstęp kwartylowy.
Podsumowując, wykres wiolinowy będzie pomocny przy analizowaniu rozkładu danych. Prezentuje więcej danych niż wykres pudełkowy i jest również prosty w interpretacji. Wykres umożliwia również przedstawienie danych w podziale na podzbiory oraz prezentuje gdzie występuje większe lub mniejsze nagromadzenie obserwacji.