Kiedy dwa wymiary to za mało. Wielowymiarowy wykres rozrzutu w PS IMAGO PRO

Spis treści [Ukryj]

Wykres rozrzutu jest podstawowym narzędziem diagnostyki związków pomiędzy zmiennymi ilościowymi.

Posiada nieocenioną wartość w analizie korelacji, ponieważ pozwala ocenić charakter i kształt związku pomiędzy zmiennymi.

Zastosowania wielowymiarowego wykresu rozrzutu

Wykorzystujemy go również (między innymi) jako podstawowe narzędzie w analizach wielowymiarowych (np. w regresji liniowej), podczas diagnostyki przypadków odstających, czy też w celu oceny jakości przeprowadzonego grupowania.

Wykres rozrzutu pełni również istotne funkcje prezentacyjne. Umożliwia wskazanie grup obiektów o podobnych wartościach, wyróżnienie interesujących nas  segmentów, opis  występujących w zbiorze danych prawidłowości(lub nieprawidłowości). Można zastosować go do prezentacji  pozycji marki  (na podstawie dwóch zadanych parametrów  - np. rozpoznawalności cii udziału firmy w segmencie rynku), wizualizacja relacji pomiędzy dwiema zmiennymi, czy pozycjonowania grup docelowych.

Istnieją liczne powody, aby wzbogacić nasz dwuwymiarowy wykres o dodatkowe informacje. Przykładowo  możemy odróżnić kolorem nasze produkty od produktów konkurencyjnych, poprzez kształt punktów na wykresie zobrazować segmenty wypracowane w toku analizy skupień, a na przykład wielkością obiektu zaprezentować średnią cenę produktu. Tego rodzaju wizualizacja może stanowić także doskonałe wsparcie w analizie regresji liniowej, np. w celu oceny wpływu czynników jakościowych na model. Przykładowy wykres został zamieszczony poniżej.

 

Rysunek 1. Przykładowy wielowymiarowy wykres rozrzutu

Rysunek 1. Przykładowy wielowymiarowy wykres rozrzutu

 

Dodatkowa zmienna jakościowa na wykresie rozrzutu

W jednym z poprzednich tekstów[1] wykorzystywaliśmy podobną wizualizację [Wykresu rozrzutu i rozkładu] do poszukiwania najbardziej korzystnej oferty zakupu używanego samochodu. Wróćmy do tego przykładu i poddajmy analizie ofertę przykładowego komisu samochodowego. Dysponujemy bazą danych zawierającą informację o marce samochodu, wieku, przebiegu, rodzaju paliwa oraz pojemności silnika. Spróbujmy przeanalizować zależności pomiędzy wiekiem samochodu a ceną i jego przebiegiem.

Nie jest niczym zaskakującym, że wiek samochodu wpływa na jego cenę. Związek generalnie jest ujemny (oczywiście po wyłączeniu z analizy aut zabytkowych) – wraz ze wzrostem wieku samochód tanieje. Na wstępie oceńmy charakter tej relacji. Wybierzmy Wielowymiarowy wykres rozrzutu zlokalizowany w Predictive Solutions -> Wykresy.

Rysunek 2. Związek pomiędzy wiekiem a ceną samochodu

Rysunek 2. Związek pomiędzy wiekiem a ceną samochodu

 

Jak widać na zamieszczonej powyżej wizualizacji wstępna hipoteza potwierdziła się – wraz ze wzrostem wieku auta spada jego cena. Z wykresu możemy jednak odczytać, że cena nie spada równomiernie. Ułatwia to dodana do wykresu linia dopasowania, przygotowana za pomocą krzywej LOWESS dostępnej z poziomu menu edycji wykresu. W przypadku młodszych aut cena spada z każdym rokiem zdecydowanie bardziej dynamicznie niż ma to miejsce w przypadku starszych samochodów. Wraz z wiekiem auta tracą wolniej na wartości.

Przyjrzymy się teraz bardziej szczegółowo możliwościom omawianej wizualizacji. Poniżej zamieściłem okno kreatora procedury.

 

Rysunek 3. Kreator Wielowymiarowego wykresu rozrzutu

Rysunek 3. Kreator Wielowymiarowego wykresu rozrzutu

 

Wielowymiarowy wykres rozrzutu w PS IMAGO PRO umożliwia uwzględnienie na wykresie rozrzutu do 3 dodatkowych wymiarów (czyli łącznie 5). W zależności od zapotrzebowania możliwe jest uwzględnienie dodatkowego czynnika jakościowego poprzez modyfikację kształtu punktów (należy przenieść zmienną do pola Kształt lub ich kolorystyki w polu Kolor). Wielowymiarowy wykres rozrzutu umożliwia także wykorzystanie dodatkowej zmiennej ilościowej w polu Rozmiar. Na zakończenie należy wspomnieć, że w menu Opcje możliwe jest zdefiniowanie palety kolorystycznej wykresu, szablonu użytkownika oraz opcji tytułu wykresu.

Jako zmienną koloru wybrałem Region. Zmienna ta opisuje kraj pochodzenia marki samochodu. Wykres uwzględniający ten dodatkowy czynnik został zamieszczony poniżej.

Rysunek 4. Związek pomiędzy wiekiem a ceną z uwzględnieniem kraju pochodzenia

Rysunek 4. Związek pomiędzy wiekiem a ceną z uwzględnieniem kraju pochodzenia

 

W ofercie analizowanego komisu znajdują się marki europejskie, azjatyckie i amerykańskie (abstrahujemy tutaj od faktycznej lokalizacji koncernu i kraju produkcji). Możemy zaobserwować ciekawą zależność. Niezależnie od wieku auta azjatyckie mają generalnie wyższe ceny od samochodów w tym samym wieku, ale pochodzącym z innych regionów świata. Z kolei auta amerykańskie wyceniane są generalnie nieco niżej. Jeżeli szukamy „po prostu samochodu” i kierujemy się ceną oraz rocznikiem, to możemy zaoszczędzić nieco pieniędzy wybierając auto amerykańskie. Nie będziemy wnikać w tym miejscu w przyczyny takiej strategii cenowej.

Dodatkowa zmienna ilościowa na wykresie rozrzutu

Poddajmy teraz analizie przebieg samochodu. Jest to jeden z kluczowych elementów przy ocenie stopnia zużycia kupowanego auta. W dużym uogólnieniu przebieg samochodu zależy od jego wieku, choć oczywiście istnieją dodatkowe czynniki, które mogą wpływać na tę zależność. Weźmy na przykład przeznaczenie auta – samochody firmowe są eksploatowane w znacznie większym stopniu niż auta prywatne, czy też pełniące funkcje drugiego pojazdu w gospodarstwie domowym. W naszym zbiorze danych nie posiadamy informacji na temat sposobu wykorzystania samochodu przez poprzedniego właściciela. Posiadamy jednak zmienną z informacją o pojemności silnika. Spróbujemy postawić hipotezę, że pojemność auta będzie również wpływała na przebieg niezależnie od jego wieku. Auta z dużymi silnikami, nierzadko lepiej wyposażone i przez to po prostu droższe, częściej będą funkcjonowały jako pierwszy samochód w gospodarstwie lub jako auto firmowe, co z kolei będzie skutkowało większym przebiegiem pojazdu. Dodatkowo samochody z dużymi silnikami częściej kupowane są przez entuzjastów motoryzacji, którzy po prostu więcej jeżdżą. Samochody o pojemnych silnikach to także często auta duże, lepiej sprawdzające się na dłuższych trasach. Wszystko to może sprawiać, że takie auta są w większym stopniu eksploatowane niż małe miejskie pojazdy. Przeanalizujemy związek pomiędzy tymi trzema zmiennymi za pomocą dostępnego w PS IMAGO PRO macierzowego wykresu rozrzutu.

Rysunek 5. Wykres macierzowy: związek pomiędzy wiekiem, przebiegiem a pojemnością

Rysunek 5. Wykres macierzowy: związek pomiędzy wiekiem, przebiegiem a pojemnością

O ile w naszym zbiorze danych wiek auta nie jest związany z pojemnością to już przebieg i pojemność pozostają ze sobą w silnej zależności liniowej (współczynnik korelacji liniowej = 0.785). Przebieg jest również związany z wiekiem samochodu, ale co ciekawe korelacja między tymi zmiennymi jest dużo słabsza (0.411). Powodem takiej sytuacji może być obecność kilku pojazdów stosunkowo młodych, ale o wysokim przebiegu, które możemy dostrzec na schematycznym wykresie rozrzutu.

Aby zobrazować relację omawianych zmiennych za pomocą pojedynczego wykresu skorzystajmy ponownie z Wielowymiarowego wykresu rozrzutu. Tym razem przenieśmy zmienną Pojemność do pola Rozmiar. Zmienną na osi X będą Lata a zmienną na osi Y będzie Przebieg samochodu.

Rysunek 6. Związek pomiędzy wiekiem, przebiegiem a pojemnością silnika

Rysunek 6. Związek pomiędzy wiekiem, przebiegiem a pojemnością silnika

 

Na wykresie można zaobserwować grupę samochodów o stosunkowo wysokim przebiegu, ale o niewielkiej liczbie lat – wyłamują się one z ogólnego schematu liniowej zależności pomiędzy wiekiem a przebiegiem auta. Jak widzimy, są to samochody o dużej pojemności silnika. Być może są to samochody dostawcze, albo byłe auta firmowe (np. eksploatowane przez przedstawicieli handlowych). Na wykresie możemy również zaobserwować, że w porównaniu do aut w tym samym wieku auta o dużej pojemności silnika mają zauważalnie większy przebieg.

Podsumowując: Dodatkowa wizualizacja pozwoliła nam szybko odnaleźć kolejne cechy wpływające na cenę samochodu. [Wielowymiarowy wykres rozrzutu] dostępny w PS IMAGO PRO pozwala w prosty sposób zaprezentować wielowymiarowe zależności pomiędzy zmiennymi. Może być wykorzystany zarówno jako ciekawa forma wizualizacji, jak również może być on pożytecznym narzędziem wspierającym analityka podczas pracy z wielowymiarowymi technikami.

 

[1] https://predictivesolutions.pl/wykres-rozrzutu-i-rozkladu-jak-wykorzystac-marginesy-wykresow-kupujac-nowy-samochod


Powiązane wydarzenia: