Dzisiejszy wpis będzie o tym, że mniej nie zawsze znaczy lepiej, a więcej, również w wizualizacji danych, może oznaczać bardziej funkcjonalnie. Nie, nie postuluję rewolucji na miarę architektonicznego less is a bore, a raczej skłaniam do zastanowienia się nad efektywnym (nie mylić z „efektownym”, a już na pewno nie „efekciarskim”) wykorzystaniem przestrzeni wykresu. Wykorzystaniem przestrzeni, które zwiększy wartość informacyjną wizualizacji, ale równocześnie nie wpłynie negatywnie na jej czytelność.
Czy ktoś z Państwa w najbliższym czasie planuje zakup nowego samochodu? Jeśli tak, myślę, że zainteresuje Was poniższy wykres i przykład, który sądzę, że będzie czytelny nie tylko dla zmotoryzowanych. Do dyspozycji mam zbiór danych przygotowany przez analityka kupującego samochód, a w nim między innymi ceny poszczególnych modeli aut i dane o liczbie koni mechanicznych. Przygotowany został prosty wykres rozrzutu, z dwiema zmiennymi ilościowymi. Analityk bada zależność pomiędzy ceną nowego samochodu, a liczbą koni pod maską. Na podstawie tej wizualizacji możemy stwierdzić, że choć układ punktów wskazuje raczej na zależność nieliniową, to zasadniczo, im więcej koni, tym droższy samochód.
Co mogłoby nam pomóc w lepszym zrozumieniu tego, co widzimy na wykresie? Dobrą praktyką przy badaniu zależności między dwoma zmiennymi jest przyglądanie się rozkładowi pojedynczych zmiennych, wchodzących w skład analizy. Dlaczego by nie przedstawić tych rozkładów na tym samym wykresie? Właśnie w tym celu możemy wykorzystać marginesy. Spójrzmy na kolejny wykres.
Ta sama wizualizacja została wzbogacona o przedstawienie rozkładu obydwu zmiennych w formie wykresów skrzynkowych na marginesach. Czego dowiadujemy się dzięki temu? Rozkład zmiennej „Cena” jest zdecydowanie prawoskośny. 50% obserwacji mieści się w cenie pomiędzy do 20 tys. dolarów. Mówi nam o tym skrzynka w prawym marginesie wykresu. Równocześnie obserwacje o cenie powyżej 55 tys. dolarów to przypadki odstające (oznaczone jako punkty), a powyżej 75 tys. dolarów – dewianci.
Dla liczby koni mechanicznych, mającej również rozkład prawoskośny, widzimy tylko jeden przypadek odstający i jednego dewianta, również w górnych wartościach zmiennej.
Dodanie wykresów skrzynkowych zwiększyło wartość informacyjną wizualizacji i ułatwiło identyfikację przypadków odstających, a sam wykres nie stracił na czytelności. A Państwo, jaki macie pomysł na wykorzystanie marginesów wykresów?