Wizualizacja drzew decyzyjnych – odświeżona klasyka

Tekst przeczytasz w:  3 minuty

Poświęćmy chwilę klasyce w wizualizacji drzew, choć nieco odświeżonej – wykresom hierarchicznym.

W tym wpisie pozostaniemy w tematyce wizualizacji zagnieżdżonych danych hierarchicznych. Dokładnie – wrócimy do korzeni, czyli do drzew. Ostatnio pokazywałam, że dane hierarchiczne mogą być prezentowane na przestrzeni dwuwymiarowej w postaci mapy drzewa. Takie rozwiązanie ma jednak pewne ograniczenia – liczbę zagnieżdżeń (poziomów). O ile mapa drzewa dobrze radzi sobie z dużą liczbą kategorii w ramach poziomu, o tyle gorzej z wieloma poziomami. Dopóki mamy do czynienia z 2-3 poziomami, dwuwymiarowa mapa drzewa jest czytelna i łatwa do interpretacji. A co w sytuacji kiedy drzewo jest rozbudowane i ma np. 8 poziomów? Mapa drzewa może przestać spełniać swoje funkcje analityczne (bo niekończenie estetyczne) i tworzyć chaotyczny miszmasz.

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

ST 2a. Wizualizacja informacji z użyciem raportów tabelarycznych i wykresów

Dlatego poświęćmy chwilę klasyce w wizualizacji drzew, choć nieco odświeżonej – wykresom hierarchicznym. Ulepszenia mają służyć nie tylko estetyce, ale przede wszystkim ułatwić zrozumienie drzewa i jego interpretację, w zależności od tego, na jakie pytanie szukamy odpowiedzi. No to zaczynamy. Przyjrzyjmy się schematycznemu wykresowi drzewa decyzyjnego, nad którym będziemy pracować. Zadaniem drzewa było przedstawienie reguł zakupu bakalii w pewnej sieci sklepów spożywczych. Zmienną przewidywaną był zakup bakalii, a kodowano ją 0-1, gdzie „1” oznaczało „kupi”. Targetem – kategoria „kupi”.

Drzewo decyzyjne - schemat

Na tym drzewie jesteśmy w stanie sprawdzić liczbę poziomów, węzłów (segmentów) oraz ścieżek (gałęzi). Jednak wszystkie segmenty są przedstawiane tak samo – jako kwadraty tej samej wielkości. Zadajmy sobie pytanie – jak duże są poszczególne segmenty? Ilu klientów spełnia wyznaczone przez nie reguły? Spójrzmy na wykres hierarchiczny poniżej.

Wykresy hierarchiczne 1

Gdyby takie 10-cio poziomowe drzewo pokazać na mapie drzewa, przyjrzenie się pojedynczym gałęziom byłoby niemożliwe. W odniesieniu do klasycznego drzewa, powyższe zachowuje formę – każdy z 10 poziomów jest pokazywany osobno, w kolejnym wierszu. Zmiana to różnicowanie wielkości poszczególnych węzłów, ze względu na ich liczebność. Oznacza to, że proporcjonalnie, im większa powierzchnia prostokąta, tym więcej osób się w nim znajduje. Ponieważ z każdym kolejnym poziomem maleje liczność segmentów, całość przypomina zwisające sople. Przedstawione procenty odnoszą się z kolei do udziału węzłów zagnieżdżonych w poziomie wyżej (węźle nadrzędnym). Mianownikiem jest liczebność węzła nadrzędnego, a licznikiem węzła badanego. Pozwala to szybko ocenić wielkość tworzonych segmentów.

Czas na kolejny krok i kolejne pytanie: które segmenty przewidują kategorię „kupi bakalie”, a które odwrotną? I znowu – odpowiednie drzewo poniżej.

wykres hierarchiczny - dwubarwny sopel

Powyższy wykres hierarchiczny odnosi się do tego samego drzewa decyzyjnego, jednak uwypuklone zostały w nim inne elementy. Wykorzystany został kolor. Zielony oznacza, że kategorią przewidywaną dla danego segmentu jest kategoria „kupi”, natomiast morski – że nie. W ten sposób jesteśmy w stanie śledzić każdą gałąź drzewa od pierwszego poziomu aż do węzłów terminalnych.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy

PS IMAGO PRO

Przed nami jeszcze jedna modyfikacja. Wiemy, jak liczne są segmenty oraz jaką kategorię przewidują. Pytanie, na ile są homogeniczne? Czyli jaki jest udział kategorii przewidywanej („kupi”) w każdym węźle. W tym celu wykorzystamy nasycenie kolorem

. wykres hierarchiczny - dwubarwny sopel z danymi

Na powyższym wykresie kolor zielony odpowiada za przewidywanie kategorii „kupi bakalie”, natomiast jego intensywność – za udział kategorii przewidywanej w ramach każdego segmentu. Im intensywniejszy kolor, tym większa frakcja jedynek (przewidywanej kategorii „kupi”) w segmencie. Do tej miary odnoszą się także prezentowane procenty. Mianownikiem jest liczebność danego segmentu, licznikiem liczba jedynek. Niestandardowe podejście do przedstawiania drzew decyzyjnych w postaci wykresu hierarchicznego mieści w sobie więcej możliwości, niż pokazane powyżej. Kluczem jest zawsze aspekt analizy, na który chcemy zwrócić uwagę odbiorcy.

Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe