Najbardziej podstawową formą opisu statystycznego są tabele (pomocne zwłaszcza w analizie zmiennych jakościowych), które zawierają zarówno liczebności, jak i zagregowane statystki (udziały, sumy, średnie itp.). Jednak jest to mało atrakcyjna forma wizualizacji. Dlatego też często przy przedstawianiu wyników posługujemy się wykresami. Taka graficzna forma prezentacji rozkładu zmiennej jest zdecydowanie bardziej czytelna i pozwala na błyskawiczną ocenę analizowanych wartości.
Co jednak w sytuacji, gdy zmienna będzie miała kilkadziesiąt albo nawet kilkaset kategorii? Jak wówczas ocenić wkład poszczególnych powiatów w strukturę ludności Polski, lub też przedstawić bogactwo języka artykułu prasowego? Kolejnym wyzwaniem może być analiza haseł, którymi użytkownicy sklepu internetowego posługują się w wyszukiwarce, czy tematów, na które zwracają uwagę w komentarzach goście hotelu. Czy w takich przypadkach jesteśmy skazani na łączenie kategorii albo na tradycyjne wykresy, które często pozostają na granicy czytelności (lub nawet ją przekraczają)? Tutaj z pomocą przychodzi nam bardzo atrakcyjna wizualnie technika graficznej prezentacji wagi poszczególnych kategorii – chmura słów, zwana także chmurą znaczników. Poniżej zostało zaprezentowane jej klasyczne zastosowanie.
Rysunek 1. ERUTARETTIL. Źródło: Andre Breton, Littérature (Nouvelle série). 1923. n° 11-12
Mimo, że chmura słów kojarzyć się może głównie z najnowocześniejszymi formami wizualizacji, to jej korzenie sięgają początków XX wieku. Tak, chmura słów ma już prawie 100 lat! Po raz pierwszy wykorzystał ją do wsparcia wniosków swoich badań André Breton (pisarz, krytyk sztuki, teoretyk surrealizmu), prezentując ważność poszczególnych pisarzy dla narodzin tego nurtu w sztuce. W oryginalnym szkicu André Breton i Robert Desnos wykorzystali wielkość czcionki, aby oddawała wagę poszczególnych autorów, a dodatkową klasyfikację umożliwiało zastosowanie kolorów.
Chmura słów dostępna dla użytkowników PS IMAGO PRO nawiązuje do tych klasycznych rozwiązań. Omówmy teraz jej możliwości. Podstawą naszej analizy będą dane Eurostat dotyczące liczby ludności w wybranych krajach Europejskich[1]. 37 państw objętych statystyką to zdecydowanie za dużo na tabelę, wykres słupkowy czy kołowy, jednak nie chcielibyśmy w ocenie ograniczać się do „klasycznego” TOP 10. I tu z pomocą przychodzi nam chmura słów. Przyjrzyjmy się poniższej wizualizacji.
Interpretacja jest bardzo prosta – większa czcionka oznacza większą częstość lub większy udział w analizowanej strukturze. Tego typu wizualizacja znakomicie sprawdza się przy wyszukiwaniu dominujących kategorii – odczytanie nazw krajów o największej liczbie ludności nie nastręcza żadnych problemów. Pozwala ona także na ocenę całej skali zróżnicowania liczebności kategorii analizowanej zmiennej. Kolejną zaletą chmury słów jest jej relatywnie zwięzła forma – zajmuje w raporcie zdecydowanie mniej miejsca niż analogiczna tabela częstości i nie musimy uciekać się do kilku tabel, lub kategorii „pozostałe”. Łatwo możemy również optycznie pogrupować analizowane kraje na duże, średnie i małe. Mimo sporej liczby analizowanych kategorii, chmura słów pozostaje względnie czytelną wizualizacją, dlatego też idealnie sprawdza się podczas analizy dużej liczby kategorii, słów lub tagów. Czyni to z niej wyjątkowo atrakcyjne narzędzie podczas analizy danych tekstowych.
Na tym prostym przykładzie warto omówić pewne pułapki, które mogą pojawić się podczas interpretacji. Chmura słów służy przede wszystkim atrakcyjnej wizualizacji, więc precyzyjny odczyt relacji wielkości jest niestety utrudniony, zwłaszcza że słowa nie są skalowane proporcjonalnie. Niedoświadczony odbiorca może interpretować powierzchnię zajmowaną przez słowo a nie jego wysokość – dłuższe słowa mogą więc optycznie zyskiwać na znaczeniu. Rozwiązaniem mogą być skrótowe nazwy kategorii lub kody. Kolejnymi elementami, na które należy zwracać uwagę, jest dobór czcionki i kolorów. Warto posługiwać się wyłącznie wielkimi lub małymi literami, unikać wymyślnych czcionek i najlepiej korzystać z jednolitego koloru.
Percepcja wagi danego słowa może również zależeć od jego sąsiedztwa względem innych wyrazów i położenia względem centrum chmury. Powyższe zastrzeżenie dotyczy jednak raczej niewłaściwej interpretacji i uleganiu przez użytkownika złudzeniom niż wad samej chmury, która w dalszym ciągu pozostaje niezwykle atrakcyjnym narzędziem wizualizacji. Przyjrzyjmy się teraz bliżej dodatkowym możliwościom, jakich dostarcza algorytm chmury słów dostępny w PS IMAGO PRO. Ponownie wykorzystamy dane Eurostat tym razem dotyczące Produktu Krajowego Brutto w krajach członkowskich UE oraz krajach kandydujących. Dodatkowo wprowadźmy rozróżnienie kolorystyczne na kraje „starej 12”, kraje które wstąpiły już do Unii Europejskiej (po 1995) oraz kraje ubiegające się o członkostwo lub pozostające w innych relacjach z UE.
PS IMAGO PRO umożliwia użytkownikowi wykorzystanie dwóch trybów wizualizacji: słowa – tak jak to zostało zaprezentowane na rysunku drugim oraz bąbelki – wykorzystane powyżej. W ostatnim przypadku ocenie poddajemy powierzchnię zajmowaną przez dane koło. Dzięki zastosowaniu bąbelków znika problem utrudnionej interpretacji słów o nierównej długości. Użytkownik ma możliwość wyboru pomiędzy zwykłą analizą częstości a wykorzystaniem dodatkowej, sumowanej zmiennej oraz wskazanie zmiennej koloru, której statystyki będą decydowały o kolorystyce poszczególnych kategorii. Bardzo ciekawe efekty daje także możliwość ingerencji w porządek kategorii – są one układane od środka chmury na podobieństwo skorupki ślimaka. Dostępne są opcje: rosnąca (najmniej liczne kategorie są w środku), malejąca (najliczniejsze kategorie są w środku), losowa, alfabetyczna i według zmiennej koloru. Bąbelki dają również możliwość naniesienia etykiet zawierających nazwę kategorii, liczebności, wartości, udział w sumie lub w liczebności – dzięki temu wizualizacja zyskuje na tak pożądanej precyzji.
Jak widać, chmura słów jest atrakcyjną propozycją wizualizacji tabeli częstości lub tabeli zawierającej zagregowane statystyki dla poszczególnych kategorii. Szczególnie dobrze sprawdza się dla zmiennych o dużej liczbie kategorii. Użytkownik nie jest tu ograniczony do liczebności i sumy – może pracować także na innych statystykach albo wartościach dowolnych wskaźników. Wykorzystanie chmury słów z pewnością ubarwi niejeden raport – jest także w stanie doprowadzić do ciekawych wniosków, niedostrzegalnych z poziomu tabeli, czy tradycyjnego wykresu.