Diagram Sankeya

Tekst przeczytasz w: 3 minuty.
Analizując dane dotyczące migracji, transportu, handlu zagranicznego czy ruchu użytkowników na naszym serwisie internetowym, często stajemy przed problemem atrakcyjnej wizualizacji przepływów pomiędzy poszczególnymi jednostkami analizy.

Sprawdź również:

Możemy w tym celu wykorzystać wykresy słupkowe, porównywać strukturę za pomocą wykresów skumulowanych, czasami też sprawdza się odpowiednio pokolorowana gradientem tabela. Generalnie można stwierdzić, że jest wiele różnych opcji podejścia do tematu, jednak tak naprawdę każde rozwiązanie niejako obchodzi problem wizualizacji przepływów. W sytuacji gdy mamy do czynienia ze zjawiskiem hierarchicznym lub kilkoma etapami procesu (np. ruch na podstronach serwisu internetowego, podróże z uwzględnieniem kraju przesiadkowego) standardowe formy wizualizacji zupełnie się nie sprawdzają. Odpowiedzią na potrzebę wizualizacji przepływów  jest udostępniony użytkownikom w najnowszej wersji PS IMAGO PRO diagram Sankeya.

Nazwa omawianej wizualizacji pochodzi od kapitana Matthew H. Sankeya – irlandzkiego inżyniera żyjącego na przełomie XIX i XX wieku, który w pracy z 1898 (M.H.Sankey, The Termal Efficiency of Steam Engine, Minutes of Proceedings of The Institution of Civil Engineers. Vol. CXXXIV, Session 1897-98. Part IV.) po raz pierwszy opublikował tzw. wykres strumieniowy.

Rysunek 1. Diagram Sankeya Źródło grafiki: Wikipedia (https://pl.wikipedia.org/wiki/Plik:JIE_Sankey_V5_Fig1.png).

Rysunek 1. Diagram Sankeya. Źródło grafiki: Wikipedia (https://pl.wikipedia.org/wiki/Plik:JIE_Sankey_V5_Fig1.png).

 

 Na wykresie poddano analizie elementy silnika parowego, takie jak: kocioł, skraplacz, czy pompa powietrza. Przepływ ciepła pokazany jest na tej grafice jako strumień, którego szerokość obrazuje ilość ciepła przetwarzaną w jednostce czasu. Gdzie znajdziemy diagram Sankeya w PS IMAGO PRO? Wizualizacja jest dostępna w zakładce Predictive Solutions w menu wykresy. Podobnie jak w przypadku artykułu o chmurze słów dane do niniejszej wizualizacji pochodzą z zasobów Eurostatu[1]. Tym razem analizie poddamy ruch lotniczy pomiędzy wybranymi krajami europejskimi. Do analizy wybrałem Francję, Niemcy, Hiszpanię i Włochy. W celu poprawy czytelności wizualizacji z analizy usunąłem ruch krajowy.

Rysunek 2. Ruch pasażerski pomiędzy wybranymi krajami europejskimi w 2017

Rysunek 2. Ruch pasażerski pomiędzy wybranymi krajami europejskimi w 2017

 

Jak odczytywać ten wykres? Po lewej stronie zostały zaprezentowane kraje, z których odlatywali pasażerowie, po prawej – kraje przeznaczenia. Grubość linii łączących obiekty po lewej i po prawej stronie wizualizacji obrazuje liczbę pasażerów, którzy podróżowali pomiędzy wyszczególnionymi krajami. Grubość belki po obu stronach obrazuje sumaryczną liczbę pasażerów. (UWAGA po prawej stronie mamy wyłącznie pasażerów z czterech wybranych krajów).

Jak widać, podróżni startujący z Hiszpanii najczęściej podróżują do Wielkiej Brytanii, Niemiec i Francji. Z kolei dla pasażerów z Niemiec możemy wskazać relatywnie rzadko występujące kierunki w innych analizowanych krajach takie jak Austria, Turcja czy Szwajcaria. Z wykresu możemy również odczytać, że najwięcej pasażerów z tych czterech krajów odprawiono w Hiszpanii, najczęściej wybieranym krajem przeznaczenia była zaś Wielka Brytania. Pamiętajmy jednak, że na wykresie nie mamy narodowości podróżujących tylko kierunki podróży – znaczną część ruchu generują więc powroty, jak to ma miejsce w przypadku Niemiec i Hiszpanii.

Wykonanie takiej wizualizacji w PS IMAGO PRO jest niezwykle proste. Jako węzły dodajemy zmienne jakościowe, które chcemy poddać analizie. Kolejność węzłów ma bardzo duże znaczenie – przepływy będą przedstawione w takiej kolejności, w jakiej zmienne zostały umieszczone w tym okienku. Analizie możemy poddać częstości, ale możemy również posługiwać się zmienną ilościową, której zsumowane wartości zostaną przedstawione na wykresie (zwykle korzystamy z tej opcji, gdy mamy do czynienia z danymi poddanymi uprzednio agregacji). Mamy również możliwość wybrania trybu kolorowania wykresu (m.in. według kategorii zmiennej „od” - „do”, a także z uwzględnieniem statystyk zmiennej koloru). Dodatkowymi możliwościami edycji są: wybór układu wykresu, opcje zamieszczania etykiet, wybór palety kolorów oraz wczytanie własnego szablonu. Na wykresie istnieje także możliwość ręcznej modyfikacji wykorzystanych barw.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO

Jak widać, diagram Sankeya znakomicie sprawdza się w ocenie siły powiązań pomiędzy zmiennymi jakościowymi (np. kraje) czy też danych o hierarchicznej strukturze. Powiązania mogą obrazować tak współwystępowanie, jak również inne możliwe do zsumowania wartości (np. wartość wymiany handlowej, liczba pasażerów, emigrantów). Dodatkowymi możliwościami mogą być: analiza tabel o złożonej strukturze, czy ocena przepływów pomiędzy segmentami wyróżnionymi na podstawie innych analiz (np. analiza skupień).  Jest to łatwe w użyciu i atrakcyjne narzędzie wizualizacji.


Oceń artykuł:

Udostępnij artykuł w social mediachZostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.

Ustawienia dostępności
Zwiększ wysokość linii
Zwiększ odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Większy kursor