Posiada nieocenioną wartość w analizie korelacji, ponieważ pozwala ocenić charakter i kształt związku pomiędzy zmiennymi.
Zastosowania wielowymiarowego wykresu rozrzutu
Wykres rozrzuty jest często wykorzystywany w analizach wielowymiarowych (np. w regresji liniowej), podczas diagnostyki przypadków odstających, czy też w celu oceny jakości przeprowadzonego grupowania.
Wykres rozrzutu pełni również istotne funkcje prezentacyjne. Umożliwia wskazanie grup obiektów o podobnych wartościach, wyróżnienie interesujących nas segmentów, opis występujących w zbiorze danych prawidłowości (lub nieprawidłowości). Wykres rozrzutu można zastosować do prezentacji pozycji marki (na podstawie dwóch zadanych parametrów, np. rozpoznawalności udziału firmy w segmencie rynku), wizualizacji relacji pomiędzy dwiema zmiennymi, czy pozycjonowania grup docelowych.
Istnieją wiele powodów, dla których warto wzbogacić standardowy wykres rozrzutu o dodatkowe informacje.
Przykładowo, możemy odróżnić kolorem nasze produkty od produktów konkurencyjnych, poprzez kształt punktów na wykresie zobrazować segmenty wypracowane w toku analizy skupień, a wielkością obiektu zaprezentować średnią cenę produktu. Tego rodzaju wizualizacja może stanowić także doskonałe wsparcie w analizie regresji liniowej, np. w celu oceny wpływu czynników jakościowych na model. Przykład takiego wykresu został zamieszczony poniżej
Rysunek 1. Przykładowy wielowymiarowy wykres rozrzutu
Dodatkowa zmienna jakościowa na wykresie rozrzutu
W jednym z poprzednich tekstów wykorzystywaliśmy podobną wizualizację (Wykresu rozrzutu i rozkładu) do poszukiwania najbardziej korzystnej oferty zakupu używanego samochodu. Wróćmy do tego przykładu i poddajmy analizie ofertę przykładowego komisu samochodowego. Dysponujemy bazą danych zawierającą informację o marce samochodu, wieku, przebiegu, rodzaju paliwa oraz pojemności silnika. Spróbujmy przeanalizować zależności pomiędzy wiekiem samochodu a ceną i jego przebiegiem.
Nie jest niczym zaskakującym, że wiek samochodu wpływa na jego cenę. Korelacja generalnie jest ujemna (oczywiście po wyłączeniu z analizy aut zabytkowych) – wraz ze wzrostem wieku samochód tanieje. Na wstępie oceńmy charakter tej relacji.
Rysunek 2. Związek pomiędzy wiekiem a ceną samochodu
Wykres rozrzutu doskonale sprawdza się w analizie korelacji pomiędzy zmiennymi. Pozwala ocenić jej kształt i kierunek, przez co jest niezastąpionym narzędziem podczas interpretacji związku pomiędzy zmiennymi. Jak widać na zamieszczonej powyżej wizualizacji, wstępna hipoteza potwierdziła się – wraz ze wzrostem wieku auta spada jego cena. Z wykresu możemy jednak odczytać, że cena nie spada równomiernie. Ułatwia to dodana do wykresu linia dopasowania, przygotowana za pomocą krzywej LOWESS. W przypadku młodszych aut cena spada z każdym rokiem zdecydowanie bardziej dynamicznie niż ma to miejsce w przypadku starszych samochodów. Wraz z wiekiem auta tracą wolniej na wartości.
Przyjrzymy się teraz możliwościom Wielowymiarowego wykresu rozrzutu dostępnego PS IMAGO PRO, który umożliwia uwzględnienie do 3 dodatkowych wymiarów (czyli łącznie 5). W zależności od zapotrzebowania możliwe jest uwzględnienie dodatkowego czynnika jakościowego poprzez modyfikację kształtu punktów. Wykres umożliwia także wykorzystanie dodatkowej zmiennej ilościowej, możliwe jest także zdefiniowanie palety kolorystycznej wykresu, szablonu użytkownika oraz opcji tytułu.
Jako zmienną koloru wybrałem Region. Opisuje ona kraj pochodzenia marki samochodu. Wykres uwzględniający ten dodatkowy czynnik został zamieszczony poniżej.
Rysunek 4. Związek pomiędzy wiekiem a ceną z uwzględnieniem kraju pochodzenia
W ofercie analizowanego komisu znajdują się marki europejskie, azjatyckie i amerykańskie (abstrahujemy tutaj od faktycznej lokalizacji koncernu i kraju produkcji). Możemy zaobserwować ciekawą zależność. Niezależnie od wieku, auta azjatyckie mają generalnie wyższe ceny tych pochodzących z innych regionów świata. Z kolei auta amerykańskie wyceniane są generalnie nieco niżej. Jeżeli szukamy „po prostu samochodu” i kierujemy się ceną oraz rocznikiem, to możemy zaoszczędzić nieco pieniędzy wybierając auto amerykańskie. Nie będziemy wnikać w tym miejscu w przyczyny takiej strategii cenowej.
Dodatkowa zmienna ilościowa na wykresie rozrzutu
Poddajmy teraz analizie przebieg samochodu. Jest to jeden z kluczowych elementów przy ocenie stopnia zużycia kupowanego auta. W dużym uogólnieniu przebieg samochodu zależy od jego wieku, choć oczywiście istnieją dodatkowe czynniki, które mogą wpływać na tę zależność. Weźmy na przykład przeznaczenie auta – samochody firmowe są eksploatowane w znacznie większym stopniu niż auta prywatne, czy też pełniące funkcje drugiego pojazdu w gospodarstwie domowym. W naszym zbiorze danych nie posiadamy informacji na temat sposobu wykorzystania samochodu przez poprzedniego właściciela. Posiadamy jednak zmienną z informacją o pojemności silnika. Spróbujemy postawić hipotezę, że pojemność auta będzie również wpływała na przebieg niezależnie od jego wieku. Auta z dużymi silnikami, nierzadko lepiej wyposażone i przez to po prostu droższe, częściej będą funkcjonowały jako pierwszy samochód w gospodarstwie lub jako auto firmowe, co z kolei będzie skutkowało większym przebiegiem pojazdu. Dodatkowo samochody z dużymi silnikami częściej kupowane są przez entuzjastów motoryzacji, którzy po prostu więcej jeżdżą. Samochody o pojemnych silnikach to także często auta duże, lepiej sprawdzające się na dłuższych trasach. Wszystko to może sprawiać, że takie auta są w większym stopniu eksploatowane niż małe miejskie pojazdy. Przeanalizujemy związek pomiędzy tymi trzema zmiennymi za pomocą macierzowego wykresu rozrzutu.
Rysunek 5. Wykres macierzowy: związek pomiędzy wiekiem, przebiegiem a pojemnością
O ile w naszym zbiorze danych wiek auta nie jest związany z pojemnością, to już przebieg i pojemność pozostają ze sobą w silnej zależności liniowej (współczynnik korelacji liniowej = 0,785). Przebieg jest również związany z wiekiem samochodu, ale co ciekawe, korelacja między tymi zmiennymi jest dużo słabsza (0,411). Powodem takiej sytuacji może być obecność kilku pojazdów stosunkowo młodych, ale o wysokim przebiegu, które możemy dostrzec na schematycznym wykresie rozrzutu.
Zobrazujmy relację omawianych zmiennych za pomocą pojedynczego wykresu. Zmienną na osi X będą Lata. zmienną na osi Y będzie Przebieg samochodu, natomiast wielkość punktów będzie zależna od zmiennej Pojemność.
Rysunek 6. Związek pomiędzy wiekiem, przebiegiem a pojemnością silnika
Na wykresie można zaobserwować grupę samochodów o stosunkowo wysokim przebiegu, ale o niewielkiej liczbie lat – wyłamują się one z ogólnego schematu liniowej zależności pomiędzy wiekiem a przebiegiem auta. Jak widzimy, są to samochody o dużej pojemności silnika. Być może są to samochody dostawcze, albo byłe auta firmowe (np. eksploatowane przez przedstawicieli handlowych). Na wykresie możemy również zaobserwować, że w porównaniu do aut w tym samym wieku, auta o dużej pojemności silnika mają zauważalnie większy przebieg.
Podsumowując, dodatkowa wizualizacja pozwoliła nam szybko odnaleźć kolejne cechy wpływające na cenę samochodu. Wielowymiarowy wykres rozrzutu dostępny w PS IMAGO PRO pozwala w prosty sposób zaprezentować wielowymiarowe zależności pomiędzy zmiennymi. Może być wykorzystany zarówno jako ciekawa forma wizualizacji, jak również może być on pożytecznym narzędziem wspierającym analityka podczas pracy z wielowymiarowymi technikami.