Ten rodzaj wykresu pozwala na określnie relacji między dwiema zmiennymi ilościowymi , co jest ważne np. w analizie korelacji, regresji bądź klasyfikacji danych.
Co jest jego najważniejszą zaletą? Wykres rozrzutu nie tylko może prezentować kierunek korelacji oraz jej siłę, ale może być również pomocny w wskazaniu skupień obserwacji o podobnych wartościach, w sprawdzeniu poprawności klasyfikacji przypadków do wyznaczonych grup oraz do wstępnego określenia, czy występują obserwacje odstające od ogólnego trendu.
Pierwsze zastosowanie wykresu rozrzutu
Pierwotnie wykres rozrzutu został przedstawiony w 1833 roku przez angielskiego naukowca Johna Fredericka W. Herschela, który wykorzystał go do badania orbit gwiazd podwójnych, a dokładnie do wykreślenia kąta położenia gwiazdy podwójnej w stosunku do roku pomiaru. Wykres rozrzutu został wykorzystany do zrozumienia fundamentalnej zależności między dwoma pomiarami.
Wykres 1. Jeden z pierwszych wykresów rozrzutu przygotowany przez Johna Fredericka W. Herschela prezentujący kąta położenia gwiazdy podwójnej oraz roku pomiaru
Źródło: Friendly M., Denis D., 2005: The early origins and development of the scatterplot. Journal of the History of the Behavioral Sciences, Vol. 41(2), s 118.
Jak interpretować wykres rozrzutu
W tabeli zaprezentowano dane dotyczące wzrostu i wagi dla 8 osób. Następnie dane zostały zaprezentowane na wykresie rozrzutu (wykres 2).
Tabela 1. Wzrost oraz waga badanych osób
Wykres 2. Wykres rozrzutu prezentujący relację między zmienną wzrost i waga
Punkty na wykresie odpowiadają poszczególnym analizowanym przypadkom. Dane wyświetlane są jako zbiór punktów, z których każdy ma wartość jednej zmiennej określającej położenie na osi x i wartość drugiej zmiennej określającej położenie na osi y. Na osi y prezentowane są dane dotyczące wagi, a na osi x dotyczące wzrostu. Osobie nr. 1 odpowiada punkt 155 na osi wzrostu i 56 na osi wagi, osobie z nr. 2, odpowiada punkt 159 na osi wzrostu i 60 na osi wagi, itd.
Przy prezentacji danych na wykresie rozrzuty warto pamiętać, że dobrą praktyką jest umieszczanie zmiennej zależnej na osi y, a zmienną niezależną na osi x.
Kierunek relacji a korelacja
Rozmieszczenie punktów prezentujących wartości dwóch zmiennych na wykresie rozrzutu może analitykowi powiedzieć bardzo wiele o relacji między analizowanymi zmiennymi. Relacje między dwiema zmiennymi można opisać za pomocą funkcji liniowej, kwadratowej, logarytmicznej, wykładniczej i innych.
Przyjrzyjmy się bliżej korelacji liniowej. Wykres rozrzutu może prezentować korelację dwóch zmiennych, która może być liniowa dodatnia (korelacja pozytywna), linowa ujemna (korelacja negatywna) lub zerowa (brak korelacji liniowej, zmienne nieskorelowane). Jeśli punkty na wykresie układają się od lewego dolnego do prawego górnego rogu wskazuje to, że jest to dodatnia korelacja między analizowanymi zmiennymi (wykres 3). Często w celu określenia kierunku relacji dwóch zmiennych pomocne jest dodanie do wykresy rozrzuty linii dopasowania.
Wykres 3. Dodatnia korelacja między zmiennymi
Jeśli układ punktów na wykresie kształtuje się od lewego górnego rogu do prawego dolnego, wskazuje to na ujemną korelację (wykres 4).
Wykres 4. Ujemna korelacja między zmiennymi
Wykres, na którym punkty rozrzucone są w formie chmury, najczęściej będzie wskazywał na brak liniowego związku między analizowanymi zmiennymi (wykres 5).
Wykres 5. Zmienne nieskorelowane
Podsumowanie
Podsumowując, prezentacja danych za pomocą wykresu rozrzutu pozwala:
- zaprezentować i zrozumieć relacje dwóch zmiennych ilościowych,
- wskazać wartości nietypowe,
- zidentyfikować skupienia w danych,
- dodać linię wraz funkcją dopasowania i wykorzystać ją do prognozowania nowych wartości danych.
Warto dodać, że do wykresu rozrzuty możemy również wykorzystać dodatkowe zmienne jakościowe bądź ilościowe, które poszerzą nam zakres prezentowanych danych.
Wykres 6. Przykład wielowymiarowego wykresu rozrzutu