Analityk często dysponuje danymi w postaci tabeli, której zawartość stanowią średnie, sumy czy wartości innych wskaźników obliczone dla grup docelowych, jednostek administracyjnych lub departamentów jakieś instytucji. Tego typu sytuacja nierzadko ma miejsce, gdy musimy pozyskać dane z innych jednostek organizacyjnych lub dysponujemy wyłącznie wynikami badań zewnętrznych. Naturalną drogą postępowania jest dobór atrakcyjnej wizualizacji, a PS IMAGO PRO wspomaga nas w tym zadaniu bogatym zestawem technik.
Chcesz dowiedzieć się więcej o analizie korespondencji ?
Zapraszamy na szkolenie MC 3a. Pozycjonowanie z wykorzystaniem map percepcyjnych i technik skalowania optymalnego
Chcąc pogłębić naszą analizę, stajemy przed poważnym problemem, ponieważ nie każdą technikę wielowymiarową da się prawidłowo wykorzystać w przypadku danych zagregowanych. Skoro jednak mają one postać tabeli, to czy naturalnym wyborem nie powinna być analiza korespondencji? Oczywiście że tak, choć z pewnymi modyfikacjami w samej procedurze.
Analiza średnich w tabeli
Wyobraźmy sobie taką sytuację – w hipotetycznym przedsiębiorstwie przeprowadzono badanie satysfakcji pracowników. Zatrudnieni oceniali kilka aspektów pracy posługując się skalą Likerta (ocena 1 oznaczała „zdecydowanie niezadowolony”, a 5 -„zdecydowanie zadowolony”). W raporcie wynikowym zamieszczono tabelę zawierającą oceny uśrednione dla komórek organizacyjnych. Została ona zamieszczona poniżej. Dla zwiększenia czytelności została pokolorowana gradientem za pomocą procedury kolorowania tabeli dostępnej w PS IMAGO PRO.
Najwyżej oceniane są aspekty finansowe (system premiowania i wynagrodzenia) oraz atmosfera w pracy. Słabiej - oferta kulturalna (np. bilety do kina) i warunki pracy. Najbardziej pozytywnie nastawionym działem wydaje się być IT (pracownicy tego działu oceniają wysoko wszystkie aspekty pracy). Trudno natomiast jednoznacznie wskazać dział, który byłby niezadowolony. Widać, że przeciętne oceny utrzymują się powyżej 3 (ani pozytywnie ani negatywnie) a zdarzają się także średnie powyżej 4,5. Można zauważyć , że IT wysoko ocenia wyposażenie, Dział handlowy warunki finansowe (w odróżnieniu od pracowników Help desku), Kadry stosunkowo nisko oceniają możliwości kształcenia oraz wyposażenie a Badania i rozwój trochę narzekają na ofertę kulturalną przedsiębiorstwa, cenią zaś kształcenie, system premiowania i atmosferę.
Przygotowanie do analizy korespondencji dla tabeli podsumowań
W poprzednim tekście opisywałem sposób wykonania analizy korespondencji na danych mających formę tabeli. W takim wypadku możemy posłużyć się językiem poleceń, korzystając z modyfikacji TABLE=ALL(). Aby analiza wykonała się prawidłowo konieczne jest podanie liczby wierszy i kolumn oraz dodanie zmiennej rowcat_ z nazwami kategorii wierszowych na początku zbioru danych. Dane mają postać analogiczną do tabeli przedstawionej na Rysunku 1.
Kolejnym, niezwykle ważnym etapem analizy jest wybór miary dystansu, szczegółowo opisany w innym z tekstów. Dla typowej tabeli kontyngencji (zawierającej liczebności) właściwym wyborem jest dystans Chi-kwadrat, który pozwala obliczyć odległości pomiędzy profilami procentowymi na mapie percepcyjnej. Inaczej sprawa ma się w przypadku tabeli zawierającej średnie. Podstawową różnicą jest brak możliwości sumowania średnich a zatem także i prawidłowego obliczenia mas i profili procentowych. W oknie definiowania modelu analizy korespondencji mamy jednak możliwość wyboru dystansu Euklidesowego jako miary odległości – w takim wypadku PS IMAGO PRO obliczy różnicę wartości pomiędzy poszczególnymi obiektami (a właściwie pierwiastek z sumy kwadratów różnic na każdym z wymiarów). Podsumowując, jeżeli dysponujemy zagregowanymi w tabeli wskaźnikami (np. średnimi) a nie liczebnościami powinniśmy wybrać odległość Euklidesową.
Po właściwym zdefiniowaniu miary odległości PS IMAGO PRO stawia nas przed koniecznością wyboru metody standaryzacji (dla uproszczenia zamieściłem poniżej okienko procedury).
O co tutaj chodzi? Gdybyśmy obliczyli średnią ocenę dla każdego z działów oraz dla poszczególnych atrybutów zauważymy, że różnią się one od siebie. Czy chcemy, aby te różnice brzegowe (inaczej mówiąc średnie, które odnaleźlibyśmy w kolumnie lub wierszu „ogółem”), wpływały na nasze rozwiązanie? Właściwą odpowiedzią jest oczywiście „To zależy”. W zależności od dokonanego wyboru algorytm usunie brzegowe średnie wierszy, kolumn lub całej tabeli. W efekcie tego zabiegu różnica w poziomie oceniania kategorii zmiennej poddanej standaryzacji nie będzie miała wpływu na wyniki a mapa zobrazuje jedynie podobieństwa w kierunkach oceniania. Z drugiej strony różnice w poziomie oceniania zmiennej, która nie została poddana standaryzacji, zostaną wyraźnie zaakcentowane na mapie. W praktyce warto przetestować różne kierunki standaryzacji, by wyciągnąć wnioski na temat charakteru relacji pomiędzy zmiennymi.
Przyjrzymy się naszej tabeli. Dział IT generalnie wystawia wyższe oceny i ta różnica może zdominować wizualizację. Warunki premiowania, wynagrodzenia i atmosfera są zaś oceniane wyżej od pozostałych atrybutów. Pytaniem jest, czy chcemy, aby mapa przedstawiała różnice poziomu (wyżej – niżej), czy tylko kierunek oceniania (dział – atrybut). Na zakończenie warto dodać, że z uwagi na brak możliwości interpretacji odległości Chi-kwadrat pozostawiamy domyślny wybór normalizacji symetrycznej.
Interpretacja mapy percepcyjnej opartej o średnie
Jak to działa w praktyce? Poniżej zamieściłem kod języka poleceń wywołujący analizę w minimalnej formie oraz uzyskaną przy jego pomocy mapę percepcyjną. Wszystkie opcje poza dystansem i standaryzacją PS IMAGO PRO wykona na ustawieniach domyślnych.
Jeżeli chcemy poddać analizie interakcje pomiędzy punktami kategorii wierszowych i kolumnowych powinniśmy wybrać standaryzację polegającą na usunięciu średnich zarówno wierszy jak i kolumn. Interpretacja wygląda wówczas następująco – im bardziej wartość na przecięciu dwóch kategorii wyróżniła się pozytywnie na tle całej tabeli, tym bardziej punkty reprezentujące te kategorie będą do siebie zbliżone na mapie percepcyjnej. W naszym przypadku oznacza to, że jeżeli pracownicy danego działu oceniali dany atrybut wysoko (zarówno na tle innych komórek organizacyjnych jak i na tle własnych ocen pozostałych cech), to dane punkty będą bliżej siebie. Przykładowo: pracownicy IT szczególnie wysoko cenią sobie wyposażenie przedsiębiorstwa, dział handlowy warunki finansowe, zaś dział badań i rozwoju zakres zadań oraz możliwości kształcenia się.
Na podstawie powyższej mapy możemy także zaproponować interpretację wymiarów, na których oceniane są warunki pracy w poszczególnych jednostkach organizacyjnych. Pierwszy wymiar tworzy zróżnicowanie pomiędzy warunkami finansowymi a ogólnie pojętymi zabezpieczeniami socjalnymi (warunki pracy, opieka zdrowotna). Drugi wymiar rozpięty jest pomiędzy wyposażeniem a bardziej „miękkimi”, społecznymi aspektami pracy jak atmosfera czy pakiet kulturalny. Pozostaje jeszcze kwestia oceny naszego modelu. W naszej źródłowej tabeli mieliśmy pierwotnie do czynienia z 7 wymiarami, zaś ostateczna mapa korespondencji przedstawia nam tę wielowymiarową przestrzeń na dwuwymiarowej płaszczyźnie. Informacji na temat jakości odwzorowania zawiera znana nam tabela podsumowanie modelu.
Możemy stwierdzić, że dwuwymiarowe rozwiązanie dosyć dobrze odwzorowuje powiązania pomiędzy poszczególnymi działami a atrybutami. Wyjaśnia ono 67% pierwotnych odległości. Niestety zmienność zaprezentowana w tej tabeli nie ma tutaj interpretacji w kategoriach bezwładności, ponieważ nie możemy obliczyć mas profili ani też profili procentowych. Kolejnym ważnym zastrzeżeniem jest to, że standaryzacja danych dokonuje się przed rozpoczęciem analizy (inaczej niż w przypadku normalizacji). Jej sposób wpływa na dane wsadowe, więc jakość odwzorowania może ulec zmianie zarówno dla całego modelu jak i dla poszczególnych punktów i wymiarów.
W przypadku, kiedy zainteresowani jesteśmy raczej oceną dystansów pomiędzy kategoriami jednej zmiennej możemy posłużyć się opcją standaryzacji poprzez usunięcie średniej wierszy lub kolumn. Konieczna jest modyfikacja języka poleceń – w opcji Standardize należy przełączyć RCMEAN na RMEAN jeżeli chcemy usunąć średnią kategorii wierszowych lub na CMEAN jeżeli usuwamy średnią z kategorii zmiennej kolumnowej.
Jak zinterpretować mapę zmodyfikowaną w taki sposób? Poniższa wizualizacja przedstawia obraz tabeli, z której usunąłem średnią kolumnową – uwzględnia więc ona zróżnicowanie w poziomie i kierunkach ocen dokonywanych przez poszczególne działy, nie wpływa zaś na nią przeciętna ocena atrybutów, którą wyliczylibyśmy dla całej firmy (czyli ich średnia „ogółem”).
Na powyższej wizualizacji możemy dostrzec wyraźny dystans dzielący IT od pozostałych jednostek organizacyjnych. Ten dział generalnie wyżej ocenia prawie każdy aspekt pracy w analizowanym przedsiębiorstwie. Help desk znajduje się raczej blisko Badań i rozwoju oraz Finansów, co świadczy o podobnym sposobie oceniania atrybutów przez pracowników tych działów. Jest on jednak odmienny od wzorca ocen dokonywanych przez Dział handlowy. Na powyższej mapie pierwszy wymiar jest efektem różnic w poziomie oceniania przez komórki organizacyjne (wysoki – umiarkowany), zaś dopiero drugi obrazuje głębsze różnice pomiędzy poszczególnymi działami (efekt oceny warunków finansowych z jednej strony a opinią na temat pozostałych benefitów z drugiej).
W tekście przedstawiłem mało znane podejście do analizy korespondencji, które jednak znacząco poszerza możliwości jej zastosowania. Analizie możemy poddać dane zagregowane według dowolnej statystyki, czy też tabelę zawierającą różnego rodzaju wskaźniki obliczone dla analizowanych jednostek. Jest to ciekawa alternatywa wobec analizy czynnikowej (jej zastosowanie dla tabel jest dość problematyczne), czy też wsparcie dla technik grupowania (np. analizy skupień).