Dlatego też pytania z możliwością dokonania wielokrotnego wyboru są powszechnie wykorzystywane w badaniach społecznych. Nierzadko stanowią one podstawę do dalszych, szczegółowych pytań o opinie na temat wybranych produktów. Analiza danych zastanych również szeroko korzysta z zestawów wielokrotnych odpowiedzi – jest to całkowicie naturalne zjawisko, że klient może posiadać kilka produktów bankowych, korzystać z wielu usług, lub też przeczytać kilka wpisów na blogu.
Stosowanie zestawów wielokrotnych odpowiedzi może na początku nastręczać pewnych problemów, które związane są z wyborem podstawy procentowania (liczba odpowiedzi jest z założenia większa od liczby respondentów, którzy udzielali odpowiedzi na pytanie). Ten temat został szczegółowo omówiony w jednym z poprzednich artykułów. W poniższym tekście przedstawię kilka propozycji wizualizacji wyników analizy zestawu wielokrotnych odpowiedzi przy pomocy technik analitycznych i procedur dostępnych w PS IMAGO PRO. Przyjrzyjmy się najpierw naszym danym. Za podstawę posłuży nam przykładowy zbiór zawierający informacje o zakupach wybranych produktów w sklepie ze sprzętem turystycznym. Jeden rekord w bazie odpowiada jednej transakcji. Zakup produktu to zmienna dychotomiczna – 1 oznacza, że dany produkt zakupiono a 0, że nie. Poniżej została zamieszczona tabela podsumowująca dokonywane transakcje.
Tabela 1. Podsumowanie transakcji – zakupione produkty
Nasza analiza obejmuje 100 transakcji, podczas których klienci zakupili 407 produktów. Mamy więc 100 obserwacji i 407 odpowiedzi. Z tabeli możemy odczytać, że najczęściej kupowanymi produktami były śpiwór (60 razy) i czołówka (58 zakupów), a najrzadziej klienci decydowali się na zakup namiotu. Naturalnie nie chcemy poprzestać na prostym stwierdzeniu, co kupowane jest najczęściej, a co najrzadziej. Wiemy bowiem, że podczas jednej transakcji przeciętnie dokonywano zakupów 4 produktów. Znacznie bardziej interesuje nas, czy istnieje jakiś wzorzec współkupowania. Jakie produkty najczęściej wpadały razem do jednego koszyka podczas jednej transakcji? Odpowiedzi na te pytania mogą być kluczowe np. w kontekście budowy systemu polecenia klientom następnych produktów na podstawie ich aktualnych wyborów. Od jego skuteczności może zależeć zadowolenie klienta oraz wzrost sprzedaży sklepu.
Parowanie produktów – procedura kolorowania tabeli
Podstawową formą analizy współzależności zmiennych użytych do budowy zestawu wielokrotnych odpowiedzi jest tabela. Najlepszą opcją do wykonania takiej analizy w PS IMAGO PRO jest wykorzystanie modułu tabel użytkownika, w którym wcześniej zdefiniowaliśmy zestaw wielokrotnych odpowiedzi. Wyczerpujący poradnik jak ją poprawnie przeprowadzić został przedstawiony we wcześniejszym wpisie. Podczas definiowania tabeli musimy jeszcze zdecydować się na prezentowaną statystykę. Skoro chcemy dowiedzieć się, jakie produkty znalazły się w koszyku, do którego wpadł analizowany produkt, to naszym wyborem powinien być procent w wierszu. W tym przypadku obojętne jest czy za podstawę procentowania wybierzemy odpowiedzi czy obserwacje, ponieważ nasze dane nie zawierają informacji o liczbie zakupionych produktów, a jedynie stwierdzenie czy produkt kupiono.
Aby pokolorować tabelę gradientem zgodnie z natężenie wartości, należy posłużyć się procedurą kolorowania tabeli, którą użytkownicy PS IMAGO PRO znajdą w zakładce Predictive Solutions w sekcji Raporty. Oczywiście nie stanowi ona osobnej procedury statystycznej, a ma za zadanie jedynie ułatwić odbiorcy interpretację wyników. W okienku procedury wybieramy opcję Zastosuj kolorowanie gradientowe i wybieramy paletę kolorystyczną (zdecydowałem się na Jesień). Dodatkowo zaznaczyłem opcję Pomijaj przekątną, dzięki której wartości umieszczone na przekątnej (100%) nie będą zaburzały skali kolorystycznej. Efektem tych działań jest zamieszczona poniżej tabela. Dla zwiększenia czytelności usunąłem z niej wartości z przekątnej, za pomocą kreatora styli tabeli oraz dodatkowo obróciłem nagłówki kolumn do pozycji pionowej korzystając z trybu edycji tabeli.
Tabela 2. Współkupowanie produktów. Statystyka w tabeli: procent obserwacji w wierszu.
Tabela zawiera wiele interesujących informacji. Przykładowo osoby, które kupowały namiot turystyczny, najczęściej podczas tej samej transakcji decydowały się także na zakup śpiwora (85,4% transakcji), nieco rzadziej na scyzoryk (61,0%), a także na lampkę czołową i kartusz (po 58,5%). Dzięki zastosowaniu kolorowania od razu możemy wskazać pary najczęściej współwystępujących kategorii lub szybko odnaleźć dla nich następną w kolejności alternatywę.
Budowa koszyka – dendrogram (analiza skupień)
Przyjrzyjmy się głębiej naszym transakcjom. Poszukujemy odpowiedzi na pytanie o to, jakie produkty najczęściej występują w jednym koszyku, ale nie chcemy ograniczać się tylko do porównywania par produktów. Kiedy dysponujemy zmiennymi dychotomicznymi i chcemy pogrupować przypadki lub zmienne pod kątem ich współwystępowania, ciekawą propozycją może być hierarchiczna analiza skupień. W jej efekcie uzyskamy informacje nie tylko o przynależności obiektów do poszczególnych grup, ale również o stopniu podobieństwa pomiędzy grupami. Jej najważniejszym obiektem wynikowym jest wykres nazywany dendrogramem.
Jak wykonać hierarchiczną analizę skupień? W PS IMAGO PRO znajduje się ona w menu Analiza w zakładce Klasyfikacja. Po wybraniu zmiennych do analizy musimy zaznaczyć okienko, informujące, że skupienia chcemy budować na zmiennych, zaś w okienku wykresów koniecznie musimy wybrać interesujący nas dendrogram. Kluczową decyzją, którą podejmujemy podczas wykonywania analizy skupień jest wybór metody analizy, którego dokonujemy w okienku Metoda. Nie wdając się w szczegóły wykorzystamy domyślną metodę aglomeracji (średniej odległości między skupieniami), zaś jako metrykę wybrałem miarę Jaccarda. Ten sposób pomiaru odległości wykorzystuje informacje o współwystępowaniu produktów w trakcie transakcji i odnosi ją do łącznej liczby transakcji, w których pojawiły się analizowane obiekty. Im wyższa wartość tym produkty są sobie „bliższe”. Podczas obliczania metryki nie jest uwzględniana liczba transakcji, w których oba produkty nie wystąpiły.
Rysunek 1. Dendrogram przedstawiający współkupowanie produktów
Zamieszczony powyżej dendrogram obrazuje proces łączenia kolejnych obiektów (umieszczone zostały po lewej stronie), a następnie grup w coraz większe segmenty, aż do osiągnięcia jednego dużego skupienia obejmującego wszystkie analizowane obiekty (po prawej stronie). Im wcześniej analizowane produkty zostały połączone, tym bardziej są do siebie podobne. Pionowe kreski symbolizują łączenie grup. Poziome linie oddają relacje podobieństwa pomiędzy łączonymi obiektami i skupieniami – im są one dłuższe, tym obiekty są bardziej zróżnicowane. Przyjrzyjmy się efektom grupowania. Najczęściej wybierane razem były namiot i śpiwór, kolejnymi parami były czołówka + scyzoryk oraz buty + kurtka. Problem zaczyna się z bielizną oraz kartuszem, które zdają się odstawać od pozostałych produktów.Z czego to wynika? Po krótkim zagłębieniu się w Tabelę 2 widzimy, że dylemat przynależności do konkretnej grupy produktów mógł być efektem tego, że bielizna i kartusz są często wybierane razem z lampką czołową lub ze śpiworem, ale już rzadko z namiotem. Ostatecznie algorytm połączył te 2 produkty ze skupieniem czołówka + scyzoryk.
Jaką liczbę skupień wybrać? Ostateczna decyzja należy do analityka, a dendrogram stanowi istotną podpowiedź. Im więcej grup wybierzemy tym trudniejsza może być interpretacja, ale grupy będą bardziej homogeniczne. Przeciwnie, im mniej grup zdecydujemy się zostawić w rozwiązaniu, tym będzie ono bardziej przyjazne dla odbiorcy, ale obiekty w skupieniach będą do siebie mniej podobne. Na podstawie oceny dendrogramu klarowna wydaje się przynależność do osobnych koszyków zestawów buty + kurtka oraz namiot + śpiwór. Lampka czołowa oraz scyzoryk również są ze sobą często wybierane. Jeżeli nie chcemy analizować bielizny i kartusza osobno, możemy włączyć je do jednego koszyka z czołówką i scyzorykiem. Ostatecznie zdecydowałem się na 3 skupienia, mając jednak świadomość, że ostatnie spośród nich jest najmniej jednolite.
Ukryty wymiar – mapa percepcyjna (analiza korespondencji)
Ostatnią techniką statystyczną, którą chciałbym zaproponować jako narzędzie analizy zestawu wielokrotnych odpowiedzi, jest mapa percepcyjna będąca efektem analizy korespondencji. W PS IMAGO PRO jest ona dostępna w menu Analiza w sekcji > Redukcja wymiarów. W odróżnieniu od poprzedniej techniki, w analizie korespondencji, przypisania należy dokonać samodzielnie. Ważną cechą mapy percepcyjnej jest możliwość interpretacji zróżnicowania pomiędzy obiektami. Dzięki ocenie ich rozrzutu możemy zinterpretować poszczególne wymiary jako zmienne ukryte – czynniki, które ukształtowały układ analizowanych obiektów. Należy również pamiętać, że mapa stanowi uproszczoną interpretację zmienności analizowanej tabeli, gdyż przedstawia 2 najważniejsze wymiary.
Analiza korespondencji jest techniką przeznaczoną do analizy 2 zmiennych nominalnych o wielu kategoriach. W tym przypadku mamy jednak do czynienia z dosyć niestandardowymi danymi (8 zmiennych dychotomicznych), przez co nie mamy możliwości zbudowania odpowiedniej tabeli krzyżowej. Czy to jednak uniemożliwia nam przeprowadzenie analizy lub wymaga skomplikowanych przekształceń? Niekoniecznie. Wystarczy, że cały analizowany zbiór danych potraktujemy jako tabelę, gdzie zmienną wierszową jest transakcja (każdy wiersz stanowi niejako osobą kategorię zmiennej transakcja) a zmienną kolumnową stanowią produkty (każda kolumna jest więc kategorią zmiennej zakupiony produkt). W poszczególnych komórkach tej tabeli znajdują się tylko wartości 0, jeżeli produkt nie został kupiony w danej transakcji lub 1, jeżeli produkt zakupiono.
Rysunek 2. Fragment analizowanego zbioru danych
Aby analiza korespondencji potraktowała zbiór danych jako tabelę, konieczna jest opisywana w jednym z wcześniejszych tekstów modyfikacja polecenia CORRESPONDENCE za pomocą TABLE=ALL. W nawiasach wpisujemy liczbę wierszy oraz kolumn, które poddajemy analizie. Nasza tabela ma 100 wierszy i 8 kolumn. Jej fragment (czyli de facto fragment zbioru danych) został zamieszczony powyżej. Mapa została wykonana w normalizacji kolumnowej (CPRINCIPAL) i umieszczone na niej zostały wyłącznie punkty kolumnowe (CPOINTS). Polecenie oraz mapa percepcyjna zostały umieszczone poniżej.
CORRESPONDENCE TABLE=ALL(100,8)
/DIMENSIONS=2
/NORMALIZATION=CPRINCIPAL
/PLOT=CPOINTS.
Rysunek 3. Mapa percepcyjna obrazującą współkupowanie produktów
Podobnie jak w przypadku analizy skupień widzimy, że analizowane produkty możemy połączyć w 3 grupy: 1) kurta, buty; 2) namiot, śpiwór, 3) czołówka, bielizna, scyzoryk, kartusz. Mapa percepcyjna pozwala również na interpretację wymiarów, na których rozpięte są nasze produkty. Spróbujmy: pierwszy, najważniejszy wymiar różnicuje produkty pierwszej, górskiej potrzeby od produktów dodatkowych, dokupywanych w miarę potrzeb. Można wyobrazić sobie wycieczkę bez bielizny termicznej, ale bez butów czy kurtki jest to już ryzykowne przedsięwzięcie. Drugi wymiar wprowadza dodatkowe rozróżnienie na sprzęt biwakowy (prawie każdy kupujący namiot, dobierał od razu śpiwór).