Wykorzystanie PS IMAGO PRO w analizie wyników badań satysfakcji mieszkańców cz. 2

Spis treści [Ukryj]

Badanie zadowolenia z życia w danej miejscowości nie powinno ograniczać się jedynie do ogólnych kategorii.

Po analizie ogólnych obszarów i tematów, a następnie wyznaczeniu na ich podstawie głównych kierunków działania, kolejnym krokiem jest rozpoznanie szczegółowych postulatów zgłaszanych przez mieszkańców. Na tej postawie możliwe będzie wskazanie najważniejszych kwestii i bieżących potrzeb, które powinny zostać załatwione w pierwszej kolejności. Ranking to jednak nie wszystko. Prosta ocena najczęściej pojawiających się postulatów może stanowić zbytnie uproszczenie problemu, a duża ilość prezentowanych kategorii nierzadko utrudnia prezentację czy pogłębioną analizę wyników.

W tym tekście będziemy kontynuować wątek badań satysfakcji poruszony w poprzednim artykule. Przyjrzymy się szczegółowym potrzebom i problemom zgłaszanym przez mieszkańców  wykorzystując możliwości wizualizacji PS IMAGO PRO. W chaosie różnorakich potrzeb i postulatów pomoże się nam natomiast odnaleźć hierarchiczna analiza skupień.

Przypomnijmy: w hipotetycznym mieście przeprowadzono badania zadowolenia z różnych obszarów życia. Mieszkańcy zostali również poproszeni o ocenę czy są skłonni polecić innym życie w danej miejscowości, czy też oceniają je krytyczne (w ostateczności mogli również zaprezentować neutralną postawę). Analiza tych odpowiedzi była tematem poprzedniego tekstu. W dalszej części kwestionariusza badani zostali poproszeni o wskazanie maksymalnie 5 najważniejszych problemów do rozwiązania z zamkniętej listy 17 postulatów. Wszystkie problemy były tematycznie powiązane z ocenianymi w pierwszej części ankiety obszarami usług publicznych. Jak widać będziemy mieli do czynienia z zestawem wielokrotnych odpowiedzi – kilka pomysłów na wizualizację tego rodzaju danych z wykorzystaniem technik statystycznych dostępnych w PS IMAGO PRO zostało opisanych w jednym z wcześniejszych artykułów.

 

Ranking potrzeb mieszkańców – wady i zalety

Podstawową formą prezentacji danych będących zestawem wielokrotnych odpowiedzi jest ranking ze względu na częstość zgłaszania poszczególnych postulatów. Ciekawą propozycją wizualizacji jest Tabelowy wykres słupkowy, dostępny w zakładce Predictive Solutions -> Wykresy -> Tabelowe. Wizualizacja jest połączeniem wykresu i tabeli – pozwala zaprezentować zestaw statystyk opisowych zmiennej ilościowej według kategorii wskazanej zmiennej grupującej. Na potrzeby tej prezentacji wybrałem wykres słupkowy. Warto pamiętać, że wykresy tabelowe dostępne w PS IMAGO PRO udostępniają liczne inne typy wizualizacji takie jak: wykresy szeregu, histogramy czy wykresy ramka-wąsy.

Rysunek 1. Ranking postulatów według procentu respondentów

Rysunek 1. Ranking postulatów według procentu respondentów

 

Taka forma wizualizacji ma kilka zalet. Pozwala ona w czytelny sposób wskazać najważniejsze dla mieszkańców problemy oraz oszacować zasięg poszczególnych postulatów. Dzięki temu możemy sybko wskazać priorytety. W przypadku omawianego badania najczęściej zgłaszanymi postulatami były: konieczność rewitalizacji parków (31% badanych), poprawa oferty instytucji kultury (24%) oraz zagospodarowanie terenów zielonych (22%). Należy pamiętać, że na wizualizacji i w tabeli został zaprezentowany procent respondentów, dlatego też wartości nie sumują się do 100%.

Niestety analiza częstości występowania każdego postulatu osobno i zsumowanie ich występowania w celu analizy ich łącznego zasięgu może prowadzić do błędnych wniosków. W ankiecie mamy bowiem do czynienia z zestawem wielokrotnych odpowiedzi, więc nie jesteśmy w stanie ocenić współwystępowania poszczególnych kategorii, co  może skutkować znaczącym przeszacowaniem częstości występowania wybranych segmentów.

 

Hierarchiczna analiza skupień w PS IMAGO PRO

Z naszego punktu widzenia ważna jest odpowiedź na pytanie nie tylko o to, które postulaty zgłaszane są najczęściej, ale również czy da się wyróżnić grupy postulatów relatywnie często współwystępujące ze sobą. Czyli zamiast 17 postulatów chcielibyśmy uzyskać 3-5 obszarów budzących zainteresowanie badanych. Na ich podstawie być może uda się wskazać które tematy są szczególnie istotne dla wybranych grup docelowych mieszkańców.

Spośród licznego zestawu technik redukcji przestrzeni danych dostępnych w PS IMAGO PRO wybierzemy hierarchiczną analizę skupień. Posiada ona bowiem zestaw opcji dedykowany analizie zmiennych dychotomicznych a dodatkową zaletą jest graficzna prezentacja wyników.

Analiza skupień jest techniką grupowania – oznacza to, że analityk, w odróżnieniu od opisywanej w poprzednim tekście analizy dyskryminacyjnej, nie dysponuje zmienną zależną (przynależność do grup). Celem analizy jest eksploracja, przygotowanie nowego podziału na grupy w oparciu o zestaw miennych niezależnych. Wyróżnione grupy powinny być jak najbardziej spójne pod względem wartości predyktorów a z drugiej strony jak najbardziej odróżniać się od pozostałych skupień.

Analiza skupień może być stosowana do zmiennych ilościowych, dychotomicznych (w naszym przypadku jest to zestaw wielokrotnych odpowiedzi) a także umożliwia pracę na danych w postaci liczebności. Przed analizą warto sprawdzić, czy dane spełniają określone wymagania:

  • Brak przypadków odstających (technika jest bardzo wrażliwa na ich oddziaływanie)
  • Zmienne mierzone na różnych skalach powinny zostać poddane standaryzacji
  • Predyktory powinny być niezależne od siebie (zestaw skorelowanych zmiennych może zdominować grupowanie)
  • Istnienie w danych faktycznych segmentów (analiza zawsze w jakiś sposób podzieli zbiór, więc sama techniczna możliwość utworzenia grup nie powinna być wnioskiem z analizy)
  • Algorytm analizy skupień jest kosztowy obliczeniowo. Z tego powodu w przypadku bardzo dużych zbiorów danych zaleca się stosowanie wcześniejsze wylosowanie próbki

Analiza skupień jest techniką aglomeracyjną. Nie wdając się w szczegóły - algorytm rozpoczyna pracę traktując każdą obserwację jako osobne skupienie. Następnie oblicza macierz odległości pomiędzy wszystkimi parami przypadków i na tej podstawie łączy dwie najbardziej podobne obserwacje w jedno skupienie i wyznacza jego centrum, następnie oblicza nową macierz odległości… i tak dalej aż do uzyskania jednego dużego skupienia, złożonego ze wszystkich obserwacji. To od decyzji użytkownika zależy, kiedy algorytm powinien się zatrzymać, a co za tym idzie, ile skupień zechce on zapisać do zbioru danych i wykorzystać w dalszej analizie. Szczegółowe informacje o technikach obliczania odległości oraz metodach aglomeracji wychodzą poza ramy tego tekstu.

Opisywana technika dostępna jest w zakładce Analiza -> Klasyfikacja -> Hierarchiczna analiza skupień. Kreator umożliwia grupowanie zarówno przypadków jak i zmiennych. My skorzystamy z tej drugiej opcji.

mapka

Rysunek 2. Kreator hierarchicznej analizy skupień

 

Po wyborze zmiennych w zakładce Wykresy należy wybrać DendrogramWykres sopelkowy możemy odznaczyć. Kolejnym krokiem jest wybór odpowiedniej metody aglomeracji i miary odległości pomiędzy obiektami, które definiujemy w menu dostępnym pod przyciskiem Metoda. Kreator umożliwia wybór różnorodnych metod łączenia obiektów w grupy. Pozostaniemy przy domyślnej metodzie średniej odległości pomiędzy skupieniami i przejdźmy do wyboru właściwej miary odległości pomiędzy obiektami.

Dla zmiennych dychotomicznych PS IMAGO PRO udostępnia bardzo zróżnicowany zestaw miar. O ile w przypadku pomiaru na skalach ilościowych temat ten został już kilkakrotnie opisany i wydaje się być zrozumiały, to w przypadku zmiennych dychotomicznych może to być nieco mniej intuicyjne. Miarą powiązań może być między innymi zakres w jakim kategorie dwóch zmiennych współwystępują się ze sobą. Im częściej kategorie są zgodne, tym zmienne są sobie bliższe. Jak to wygląda w praktyce? Zacznijmy od przyjrzenia się zamieszczonej poniżej schematycznej tabeli.

 

Rysunek 3. Schemat tabeli powiązań pomiędzy zmiennymi dychotomicznymi

Rysunek 3. Schemat tabeli powiązań
pomiędzy zmiennymi dychotomicznymi

 Tabela obrazuje współwystępowanie kategorii dwóch zmiennych dychotomicznych. Zakładając, że wartość 1 obrazuje wystąpienie zjawiska a 0 niewystąpienie mamy do czynienia z 4 potencjalnymi możliwościami:

  • Komórka A: wystąpiło zarówno zjawisko X jak i Y
  • Komórka B: zjawisko X nie wystąpiło a Y wystąpiło
  • Komórka C: zjawisko X wystąpiło a Y nie wystąpiło
  • Komórka D: zarówno X jak i Y nie wystąpiło

Najprostszą miarą współwystępowania dwóch zmiennych może być udział obserwacji o zgodnych wartościach do liczby wszystkich obserwacji. Oczywiście ten obraz można następnie skomplikować: pierwszym pytanemi jest czy uwzględniamy tylko współwystępowanie (A) czy też może również zgodne niewystępowanie obydwu zjawisk (D). Zastanówmy się, co stanowi punkt odniesienia: wszystkie obserwacje (A+B+C+D) czy też nie interesuje nas obustronny brak zjawiska (bez D). A może należy uwzględnić ważenie wartości zgodnych (A), jeżeli są one dla nas szczególnie ważne albo wykorzystać współczynnik korelacji. Miar powiązania jest naprawdę dużo i ich wybór zawsze zależy od preferencji analityka, problemu badawczego oraz od posiadanych danych.

Przyjrzyjmy się trzem przykładowym miarom odległości opartym o współwystępowanie:

  • Proste Zgodności (Simple matching): jest to stosunek par zgodnych (A+D) do liczby wszystkich par. Jeżeli interesuje nas zarówno współwystępowanie, jak i wspólny brak zjawisk możemy się zdecydowani na tę miarę
  • Miara Russella i Rao (Russell and Rao): jest to stosunek liczby współwystąpień (A) do liczby wszystkich par. Jest to dobra miara, jeżeli wspólna liczba przypadków dla których żadne z mierzonych zjawisk nie występuje jest niewielka.
  • Miara Jaccarda (Jaccard): liczba wspólnych wystąpień (A) jest podzielona przez łączną liczbę obserwacji, dla których wystąpiło przynajmniej jedno z mierzonych zjawisk (A+B+C). Miara znajduje zastosowanie, jeżeli nie jesteśmy zainteresowani uwzględnieniem obustronnego braku zjawiska w analizie dwóch cech, zjawiska występują rzadko albo liczba wspólnych wystąpień jest bardzo zróżnicowana pomiędzy poszczególnymi parami.

W naszej analizie zdecydowałem się na miarę Jaccarda. Interesuje mnie bowiem wyłącznie współwystępowanie postulatów zgłaszanych przez mieszkańców. Generalnie poszczególne postulaty nie są zbyt liczne (najliczniejsza kategoria pojawiła się w 31% przypadków).

Na zakończenie warto wspomnieć, że PS IMAGO PRO umożliwia zapis przynależności obserwacji do poszczególnych segmentów za pomocą okna Zapisz. Okno to jest nieaktywne w przypadku grupowania zmiennych, ponieważ przypadków nie da się jednoznacznie przypisać do skupień. W takiej sytuacji musimy poradzić sobie za pomocą przekształceń opisanych w dalszej części tekstu.

 

Grupowanie potrzeb mieszkańców – interpretacja wyników

 

Najważniejszym obiektem wynikowych hierarchicznej analizy skupień jest dendrogram. Jest on podstawą do określenia liczby skupień, które mają być efektem przeprowadzonej analizy, pomaga również zinterpretować wyniki grupowania. Dendrogram będący wynikiem naszej analizy został zamieszczony poniżej.

Rysunek 4. Powiązania pomiędzy postulatami (dendrogram)

Rysunek 4. Powiązania pomiędzy postulatami (dendrogram)

 

Dendrogram obrazuje kolejne etapy łączenia obiektów w skupienia a przebieg tego procesu możemy odczytać analizując wykres od lewej do prawej strony. Na początku wszystkie przypadki stanowią odrębne skupienia. Program oblicza macierz odległości pomiędzy wszystkimi parami obiektów a następnie następuje pierwsze łączenie dwóch najbardziej podobnych do siebie obiektów, co obrazuje łącząca je pionowa linia. Na kolejnym etapie następuje ponowne obliczenie odległości i następne połączenie. Poziome linie obrazują skalę podobieństwa pomiędzy łączonym obiektami. Im obiekty wcześniej się połączą, tym krótszy dzieli je dystans od lewej strony wykresu i tym bardziej są do siebie podobne. I odwrotnie – jeżeli kolejne połączenia dzieli większa odległość oznacza to dużą różnicę pomiędzy łączonymi skupieniami.

Proces grupowania kończy się utworzeniem jednego dużego skupienia zawierającego wszystkie grupowane obiekty. Zadaniem analityka jest decyzja, w którym momencie przerwać grupowanie, to znaczy w praktyce ile skupień zachować. Zachowane skupienia powinny być jak najbardziej spójne wewnętrznie i jednocześnie jak najbardziej różnić się między sobą. Optymalną sytuacją jest więc połączenie się obiektów na wczesnym etapie grupowania w kilka dużych grup, które następnie będzie dzielić od siebie duży dystans – na dendrogramie zaobserwujemy to w postaci dużej odległości (poziomej) dzielącej etap formowania się skupień od finalnego połączenia się ich w jedną dużą grupę.

Wróćmy do naszego przykładu. Respondenci najczęściej wskazywali problem z zagospodarowaniem obszarów zielonych oraz małą liczbę imprez kulturalnych. Kolejnymi połączonymi postulatami były problemy z zakresem zajęć dodatkowych w szkołach i sieć ścieżek rowerowych. Na następnym etapie do imprez i miejsc w żłobkach został dołączony postulat rewitalizacji parków.

Ostatecznie zmienne zostały połączone w 3 relatywnie klarowne skupienia. Etap utworzenia się skupień dzieli od punktu połączenia się wszystkich grup dość spory dystans. Na podstawie połączonych zmiennych możemy spróbować poddać je interpretacji (zaczynając od góry) i nadać utworzonym skupieniom ogólne nazwy:

  • Wypoczynek i rekreacja: grupa postulatów związanych z rekreacją i spędzaniem czasu wolnego. Wchodzą tutaj postulaty dotyczące rewitalizacji parków, zagospodarowania obszarów zielonych, infrastruktury rowerowej oraz poczucia bezpieczeństwa (liczba patroli służb porządkowych).
  • Transport i infrastruktura drogowa: w tej grupie postulatów mieszczą się zastrzeżenia dotyczące zarówno transportu indywidualnego (infrastruktura drogowa, miejsca parkingowe), jak i zbiorowego (ceny biletów, liczba kursów) a także ruchu pieszych (chodniki, oświetlenie).
  • Instytucje publiczne: w tej grupie znalazły się postulaty dotyczące funkcjonowania instytucji publicznych (instytucje kultury, placówki oświatowe, żłobki, przedszkola oraz obiekty sportowe).

Postulaty zakwalifikowane do jednej grupy mają większą szansę pojawiać się wspólnie niż w towarzystwie postulatów z innych grup. Utworzenie dużych grup pomaga zinterpretować bogaty zestaw postulatów zgłaszanych przez obywateli. Wyróżnione obszary mogą stanowić wskazówkę do ustalenia kierunków działań instytucji publicznych w celu poprawy jakości życia mieszkańców.

 

Rysunek 5. Zasięg poszczególnych postulatów z uwzględnieniem wyników grupowania

Rysunek 5. Zasięg poszczególnych postulatów z uwzględnieniem wyników grupowania

 

Zanim przejdziemy do dalszej analizy spróbujmy zaprezentować wyniki naszego grupowania. Ciekawą, alternatywą wobec wykresu słupkowego, formą prezentacji zasięgu licznych kategorii, zmiennych, czy zestawu wielokrotnych odpowiedzi z uwzględnieniem dodatkowej zmiennej grupującej jest Chmura dostępna w PS IMAGO PRO w zakładce Predictive Solutions -> Wykresy. Pozwala ona lepiej zaprezentować dominujące kategorie a dodatkowo czytelnie oznaczyć ógólniejszą kategorię do której należą. Doskonale sprawdza się w połączeniu z wykresem tabelowym, gdy chcemy uzyskać atrakcyjny efekt wizualny. Wnioski możemy zaprezentować za pomocą chmury a wykres tabelowy może zawierać szczegółowe informacje i statystyki. W opcji Słowa chmura świetnie sprawdza się również w prezentacjach związanych z analizą odpowiedzi na pytania otwarte w ankietach i formularzach.

Przejdźmy teraz do obliczenia zasięgu grup postulatów. Najlepiej to zrobić obliczając nowe zmienne na podstawie posiadanego zestawu wielokrotnych odpowiedzi. Tego typu przekształcenia z łatwością możemy wykonać za pomocą PS IMAGO PRO. Musimy utworzyć więc 3 nowe zmienne (dla każdej grupy postulatów) i w każdej z nich za pomocą polecenia Przekształcenia -> Zlicz wystąpienia zapisać liczbę postulatów z danej grupy zgłoszonych przez respondenta. Następnie pozostaje tylko przekodować nasze zmienne poleceniem Przekształcenia -> Rekoduj na te same zmienne w myśl zasady, że jeżeli liczba postulatów jest większa od 0 to dana grupa wystąpiła. Oczywiście to dość liberalne kryterium możemy nieco zaostrzyć (przykładowo zdecydować się na zakodowanie danej grupy, jeżeli zostały zgłoszone przynajmniej dwa należące do niej postulaty). Tak utworzone nowe zmienne dychotomiczne mogą zostać poddane dalszej analizie. Przyjrzymy się zasięgowi poszczególnych grup postulatów.

Rysunek 6. Zasięg poszczególnych grup postulatów

Rysunek 6. Zasięg poszczególnych grup postulatów

 

Na podstawie wykresu możemy stwierdzić, że w obszarze możliwości wypoczynku postulaty zgłasza prawie 70% badanych, około 60% mieszkańców ma zastrzeżenia do funkcjonowania instytucji publicznych zaś na transport narzeka około połowy respondentów. Ten ogólny wniosek możemy pogłębić przyglądając się odsetkowi respondentów zgłaszających zastrzeżenia w poszczególnych obszarach według grup docelowych. Dla przykładu wykorzystajmy wiek respondenta. Bez grupowania postulatów taka analiza była bardzo trudna w prezentacji.

Porównanie odsetka zgłaszanych postulatów według kategorii wiekowych zostało zamieszczone poniżej. Do tego celu wykorzystamy wykres liniowy. Tradycyjne wykresy (jak wykresy liniowe, słupkowe, kołowe) a także bardziej zaawansowane wizualizacje można przygotować w PS IMAGO PRO za pomocą przyjaznego kreatora Wykresy -> Kreator wykresów.

 Rysunek 7. Udział zgłaszanych postulatów według grup wiekowych

Rysunek 7. Udział zgłaszanych postulatów według grup wiekowych

 

Postulaty związane z wypoczynkiem i rekreacją najrzadziej zgłaszają osoby w wieku poniżej 20 lat, jednak z wiekiem zainteresowanie tym obszarem wzrasta. Na możliwości wypoczynku w badanej miejscowości narzekają trzydziestolatkowie. Wśród starszych osób poziom zastrzeżeń utrzymuje się na stałym poziomie. Widać również, że wraz z wiekiem wyraźnie spada odsetek osób narzekających na transport oraz jakość infrastruktury drogowej. Z kolei odwrotną zależność obserwujemy w przypadku grupy postulatów związanych z instytucjami publicznymi. Wraz z wiekiem wzrasta odsetek osób zgłaszających zastrzeżenia do ich działania. Relację tę można tłumaczyć wzrostem zainteresowania ofertą placówek kulturalnych wraz z wiekiem, ale również z drugiej strony niedopasowaniem oferty do oczekiwań osób starszych.

W tym miejscu musimy zakończyć niniejszy artykuł. Hierarchiczna analiza skupień może stanowić wsparcie w procesie analizy postulatów zgłaszanych przez mieszkańców i stanowić podstawę do ciekawych spostrzeżeń na temat ich potrzeb. Nie jest to technika trudna w interpretacji, a jej zastosowanie pozwala znacząco uprościć skomplikowane relacje występujące w zestawach wielokrotnych odpowiedzi do kilku klarownych wniosków.


Powiązane wydarzenia: