Wykres rozrzutu i rozkładu: jak wykorzystać marginesy wykresów kupując nowy samochód?

Tekst przeczytasz w:  2 minuty

Dzisiejszy wpis będzie o tym, że mniej nie zawsze znaczy lepiej, a więcej, również w wizualizacji danych, może oznaczać bardziej funkcjonalnie. Nie, nie postuluję rewolucji na miarę architektonicznego less is a bore, a raczej skłaniam do zastanowienia się nad efektywnym (nie mylić z „efektownym”, a już na pewno nie „efekciarskim”) wykorzystaniem przestrzeni wykresu. Wykorzystaniem przestrzeni, które zwiększy wartość informacyjną wizualizacji, ale równocześnie nie wpłynie negatywnie na jej czytelność.

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

ST 2a. Wizualizacja informacji z użyciem raportów tabelarycznych i wykresów

Czy ktoś z Państwa w najbliższym czasie planuje zakup nowego samochodu? Jeśli tak, myślę, że zainteresuje Was poniższy wykres i przykład, który sądzę, że będzie czytelny nie tylko dla zmotoryzowanych. Do dyspozycji mam zbiór danych przygotowany przez analityka kupującego samochód, a w nim między innymi ceny poszczególnych modeli aut i dane o liczbie koni mechanicznych. Przygotowany został prosty wykres rozrzutu, z dwiema zmiennymi ilościowymi. Analityk bada zależność pomiędzy ceną nowego samochodu, a liczbą koni pod maską. Na podstawie tej wizualizacji możemy stwierdzić, że choć układ punktów wskazuje raczej na zależność nieliniową, to zasadniczo, im więcej koni, tym droższy samochód.

Wykres rozrzutu z dwiema zmiennymi ilościowymi

Wykres rozrzutu z dwiema zmiennymi ilościowymi

 

Co mogłoby nam pomóc w lepszym zrozumieniu tego, co widzimy na wykresie? Dobrą praktyką przy badaniu zależności między dwoma zmiennymi jest przyglądanie się rozkładowi pojedynczych zmiennych, wchodzących w skład analizy. Dlaczego by nie przedstawić tych rozkładów na tym samym wykresie? Właśnie w tym celu możemy wykorzystać marginesy. Spójrzmy na kolejny wykres.

Rozkład dwóch zmiennych w formie wykresów skrzynkowych

Rozkład dwóch zmiennych w formie wykresów skrzynkowych

Ta sama wizualizacja została wzbogacona o przedstawienie rozkładu obydwu zmiennych w formie wykresów skrzynkowych na marginesach. Czego dowiadujemy się dzięki temu? Rozkład zmiennej „Cena” jest zdecydowanie prawoskośny. 50% obserwacji mieści się w cenie pomiędzy do 20 tys. dolarów. Mówi nam o tym skrzynka w prawym marginesie wykresu. Równocześnie obserwacje o cenie powyżej 55 tys. dolarów to przypadki odstające (oznaczone jako punkty), a powyżej 75 tys. dolarów – dewianci.

Dla liczby koni mechanicznych, mającej również rozkład prawoskośny, widzimy tylko jeden przypadek odstający i jednego dewianta, również w górnych wartościach zmiennej.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy

PS IMAGO PRO

Dodanie wykresów skrzynkowych zwiększyło wartość informacyjną wizualizacji i ułatwiło identyfikację przypadków odstających, a sam wykres nie stracił na czytelności. A Państwo, jaki macie pomysł na wykorzystanie marginesów wykresów?

Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe