W tym wpisie zajmiemy się tym, na jakie statystyki warto zwrócić uwagę przygotowując się do wykonania analizy rzetelności skali i jak przygotować dane do tej analizy.
Załóżmy, że badamy postawy klientów banku wobec oszczędzania pieniędzy. Wskaźnikiem stosunku do oszczędzania ma być skala sumaryczna utworzona z następujących stwierdzeń:
- wolę wydawać pieniądze niż oszczędzać;
- posiadanie oszczędności daje mi poczucie bezpieczeństwa;
- kupowanie nowych rzeczy poprawia mi humor;
- podczas wydawania pieniędzy czuję dyskomfort;
- jestem dumny z mojej umiejętności oszczędzania pieniędzy;
- oszczędność świadczy o rozwadze.
Przy każdym z tych stwierdzeń, zadaniem respondentów było zaznaczenie odpowiedzi na skali od 1 do 6, gdzie 1 oznaczało „zdecydowanie się nie zgadzam”, a 6 – „zdecydowanie się zgadzam”. Zwróćmy uwagę na to, że przy stwierdzeniach b, d, e i f, im wyższa wartość odpowiedzi respondenta, tym stosunek do oszczędzania można określić jako bardziej pozytywny. W przypadku stwierdzeń a oraz c jest dokładnie na odwrót – wyższe wartości odpowiedzi świadczą o negatywnym stosunku do oszczędzania. Skoro tak, to przed przystąpieniem do analizy rzetelności, musimy tak przekodować zmienne, aby wysokie wartości wskazywały zawsze na to samo (w naszym przypadku – na pozytywny stosunek do oszczędzania).
Najlepiej stworzyć nowe, odpowiednio przekształcone zmienne (a2, c2) i to z nich korzystać w dalszej analizie. Po przekształceniu ze zmiennej „wolę wydawać pieniądze niż oszczędzać”, otrzymujemy „wolę oszczędzać pieniądze niż wydawać”. A ze zmiennej „kupowanie nowych rzeczy poprawia mi humor” – „kupowanie rzeczy psuje mi humor”. Powyższe przekształcenia – odwrócenie skali – należą do etapu przygotowania danych do analizy. Przejdźmy teraz do statystyk, którym warto przyjrzeć się przed wykonaniem właściwej analizy rzetelności skali. W pierwszej kolejności warto sprawdzić jaka część obserwacji została wykluczona z analizy ze względu na braki danych.
Analizowane dane
Tabela 1. Informacja o analizowanych danych
Jedną z najczęściej wykorzystywanych metod traktowania braków danych jest usuwanie obserwacjami [ang. listwise]. Taka metoda została też zastosowana w tym przypadku. Oznacza to, że wystarczy, iż respondent nie odpowiedział na jedno z sześciu postawionych mu pytań, a odpowiedzi tego respondenta nie będą w ogóle brane pod uwagę.
Nad sposobem traktowania braków danych warto zastanowić się z kilku względów. Po pierwsze, jeśli odsetek wykluczonych obserwacji byłby zbyt duży, zachodziłaby obawa, że wyniki analiz nie będą wiarygodne. W takim przypadku warto byłoby zastanowić się nad zastosowaniem jednej z metod zastępowania braków danych. Po drugie, gdy będziemy dla każdego respondenta wyliczać wartość na skali postawy wobec oszczędzania, będziemy musieli zdecydować, jaki wynik mają otrzymać respondenci z brakami danych i zastanowić się, jaki będzie to miało wpływ na końcową analizę. W tym przykładzie wykluczone obserwacje z brakami danych stanowią 4,7% ogółu. Nie jest to mało, ale możemy pozwolić sobie na taką stratę.
W dalszej kolejności warto zapoznać się z podstawowymi statystykami analizowanych zmiennych.
Statystyki pozycji
Tabela 2. Statystyki pozycji
Poszczególne pytania wchodzące w skład skali nazywane są pozycjami skali. Dla każdej pozycji wyliczona została średnia i odchylenie standardowe. Respondenci najsilniej zgadzali się ze stwierdzeniem: posiadanie oszczędności daje mi poczucie bezpieczeństwa. Wysoką średnią ma też (przekształcone) stwierdzenie wolę oszczędzać niż wydawać pieniądze. Najniższa średnia została zaobserwowana w przypadku (również przekształconego) stwierdzenia kupowanie nowych rzeczy psuje mi humor. Stwierdzenie to ma równocześnie największe odchylenie standardowe, co oznacza, że respondenci nie byli w swoich ocenach tak zgodni, jak w przypadku innych stwierdzeń. To wszystko skłania do uznania tej pozycji jako „podejrzanej” i potencjalnie mogącej psuć spójność naszej skali. Kolejnym krokiem jest zapoznanie się z macierzą korelacji między pozycjami.
Macierz korelacji
Tabela 3. Macierz korelacji między pozycjami z zastosowaniem kolorowania gradientowego komórek tabeli
W tej tabeli nie musimy patrzeć na wszystkie wartości, a jedynie na dolny trójkąt (wartości znajdujące się pod przekątną). Górny trójkąt jest powieleniem tych samych informacji. Najbardziej skorelowane są stwierdzenia: jestem dumny z mojej umiejętności oszczędzania pieniędzy oraz podczas wydawania pieniędzy czuję dyskomfort . Oznacza to, że im silniejszą dumę z umiejętności oszczędzania odczuwa respondent, tym silniejszy dyskomfort czuje ta osoba podczas wydawania pieniędzy. Innymi silnie skorelowanymi ze sobą stwierdzeniami są następujące pary:
- oszczędność świadczy o rozwadze - podczas wydawania pieniędzy czuję dyskomfort;
- jestem dumny z mojej umiejętności oszczędzania pieniędzy - posiadanie oszczędności daje mi poczucie bezpieczeństwa.
Najsłabsza korelacja występuje natomiast pomiędzy stwierdzeniami: kupowanie nowych rzeczy psuje mi humor oraz wolę oszczędzać niż wydawać pieniądze. W podobny sposób możemy analizować macierz kowariancji między pozycjami (nie umieszczam jej w tym wpisie). Na jej przekątnej znajdują się wariancje poszczególnych pozycji, a w pozostałych komórkach – kowariancje między parami pozycji. Podczas analizy obydwu macierzy warto zwrócić uwagę na to, jak nasza „podejrzana” pozycja koreluje z pozostałymi. W naszym przypadku wartości w komórkach macierzy są względnie wyrównane i pozycja kupowanie nowych rzeczy psuje mi humor nie wydaje się silnie odstawać od pozostałych. Dotychczas koncentrowaliśmy się na poszczególnych pozycjach skali. Nie możemy jednak zapomnieć, że naszym celem jest zbudowanie skali, której wartości są sumą wartości wszystkich pozycji. Tabela Statystyki skali mówi o tym, jak kształtowałyby się: średnia, wariancja i odchylenie standardowe skali złożonej z wszystkich sześciu analizowanych pozycji.
Statystyki skali
Tabela 4. Statystyki skali
Zauważmy, że nasza skala może przyjmować wartości od 6 (w przypadku, gdyby respondent dla wszystkich pozycji wybrał najniższą możliwą wartość, czyli 1) do 36 (w przypadku, gdyby respondent dla wszystkich wartości wybrał wartość 6). Średnia 26,6 na tej skali wydaje się dość wysoka i świadczy o pozytywnym stosunku respondentów do oszczędzania. Przejrzenie tych statystyk przed uruchomieniem właściwej analizy rzetelności, pozwala na pełniejsze zrozumienie analizowanych danych. Nie zajmuje dużo czasu, a w wielu przypadkach pomaga uniknąć błędów i wyciągania nieuzasadnionych wniosków. Sama analiza rzetelności skali to materiał na osobny wpis.