W jakim celu stosuje się rekordowanie?
Rekodowanie zmiennych ilościowych na jakościowe jest szeroko stosowane z kilku powodów. Taka transformacja danych przyczynia się do lepszego zrozumienia danych. Zmienne jakościowe pod tym względem są zazwyczaj bardziej przyjazne niż zmienne ilościowe. Dzięki rekodowaniu można łatwiej porównywać różne grupy lub kategorie, co upraszcza dalszą analizę. Wiąże się to również z ułatwieniem etapu wizualizacji danych. Wykorzystanie wielu wykresów, jak np. słupkowych czy kołowych, będzie miało sens tylko, jeśli liczba prezentowanych kategorii nie będzie zbyt duża. Sprowadzenie zmiennych ilościowych do jakościowych może więc poprawić czytelność wizualizacji. Pozwala to na lepsze zrozumienie wzorców i trendów występujących w danych oraz czyni wyniki bardziej przystępnymi i dostępnymi dla osób, które nie są specjalistami w danej dziedzinie.
Kolejnym powodem może być anonimizacja danych. W niektórych przypadkach, zwłaszcza w analizie danych medycznych lub personalnych, istnieje potrzeba ochrony prywatności. Poprzez rekodowanie zmiennych ilościowych na jakościowe, można ukryć dokładne wartości, np. sprowadzić dokładne zarobki czy wyniki badań medycznych do pewnych przedziałów.
Rekodowanie pozwala również dostosować dane do konkretnej metody analizy statystycznej. Przykładem mogą być test chi-kwadrat czy analiza regresji logistycznej, w której przewidywana zmienna musi być jakościową zmienną o dwóch kategoriach.
Rekordowanie do przedziałów o równych szerokościach
Jednym z najprostszych sposobów rekodowania zmiennych ilościowych na jakościowe, jest podział zakresu wartości na określone przedziały. Szerokość przedziałów może być ustalona przez użytkownika na podstawie wskazanej wartości np. rekodując zmienną wiek, definiowane jest, że każdy przedział będzie miał zakres kolejnych 10 lat lub poprzez wskazanie liczby punktów podziału np. 4 punkty podzielą zbiór na 5 równych zakresów w ramach danej zmiennej. W takim wypadku, jeśli zmienna miałaby przedział wartości od 0 do 100, po wyznaczeniu 4 punktów podziału, będzie zawierała 5 równych przedziałów: 0-20, 21-40, 41-60, 61-80, 81-100.
Stosując takie podejście, należy mieć na uwadze, że stworzone przedziały najprawdopodobniej nie będą miały równych liczebności. Jest to wynikiem tego, że podział nastąpił tylko na podstawie zakresu wartości zmiennej (rys. 1). Dzięki temu zachowujemy jednak do pewnego stopnia informację o rozkładzie danej zmiennej w próbie – np. kategoria wiekowa 78-97 ma znacząco mniejszą liczebność od wcześniejszych przedziałów wiekowych.
Rysunek 1. Histogram prezentujący rozkład zmiennej wiek w badanej grupie.
Kolorami zaznaczone zostały kolejne przedziały, o ustalonej szerokości 20 lat.
Rekordowanie do przedziałów o równych liczebnościach
Innym podejściem jest rekodowanie zmiennych ilościowych na podstawie zaobserwowanego rozkładu zmiennej. Taki podział bazuje na wyliczonych kwantylach[1], czyli wartościach cechy badanej próby dzielących jej liczebność na n równych części. Najczęściej wykorzystywanymi do takich transformacji kwantylami są kwartyle oraz percentyle. Kwartyle dzielą próbę na cztery równe części, natomiast percentyle na 100, co umożliwia później wiele różnych podziałów zarówno na 4, ale też 5 czy 10 równych liczebnościowo przedziałów.
Ten sposób rekodowania będzie użyteczny kiedy chcemy analizować zbiór danych w podziale na grupy o równych liczebnościach. Przykładowo, chcemy w prosty sposób zaprezentować badania satysfakcji z wykonywanej pracy w dużych miastach oraz na wsi. Aby uprościć analizę i prezentowanie wyników, chcemy zrekodować jedną ze zmiennych - zarobki na cztery kategorie: bardzo dobrze, dobrze, słabo i źle zarabiających. Wiemy jednak, że przeciętna wysokość zarobków w miastach i na wsiach jest znacząco różna (rys. 2). Ta sama kwota może więc jednych plasować w grupie średnich zarobków, a innych w czołówce. Z doświadczenia wiemy, że satysfakcja z wynagrodzenia może zależeć od szerszego kontekstu, w tym np. porównania na tle innych osób z otoczenia, czy kosztów życia.
Rysunek 2. Wykres wiolinowy PS IMAGO PRO[2] prezentujący rozkład zarobków w badanej próbie. Średnia zarobków wynosząca 3040 zł (zaznaczona ciągłą linią) w odniesieniu do mediany w poszczególnych grupach (oznaczonymi czerwonymi punktami) stanowiła wartość drugiego kwartyla w grupie mieszkańców dużych miast oraz trzeciego kwartyla w grupie mieszkańców wsi.
Rekodując zmienną na cztery grupy możemy przedstawić satysfakcję z pracy np. w postaci wykresu Marimekko[3]. W ten sposób, najważniejsze informacje będą miały jasną i czytelną wizualizację (rys. 2). Dodatkowo, rekodowanie na przedziały o równych liczebnościach na podstawie kwartyli, osobno dla miast i wsi, pozwala nam na utworzenie zmiennej, gdzie poszczególne kategorie rzeczywiście przedstawiają lepiej i gorzej zarabiających w obrębie tych dwóch miejsc zamieszkania. W dalszym kroku, moglibyśmy wykonać więc wykres Marimekko jeszcze raz – osobno dla tych dwóch grup – i przedstawić wyniki z zachowaniem wyjściowego, równego udziału złych, niskich, dobrych i wysokich zarobków w każdej z nich.
Rysunek 3. Wykres Marimekko PS IMAGO PRO przedstawiający satysfakcję z wykonywanej pracy w grupach o złych, niskich, dobrych i wysokich zarobkach.
[1] Kwantyle, Kwartyle, Percentyle (miary położenia) – Predictive Solutions
Rekordowanie z uwzględnieniem celu analizy
Czasami rekodowanie zmiennej ilościowej na jakościową może zależeć od celu analizy. Przykładowo, w badaniach marketingowych, można rekodować zmienne ilościowe, takie jak dochód, na podstawie progu dochodowego istotnego z punktu widzenia kampanii reklamowej. Inną, często tak traktowaną zmienną, jest wiek – może być zasadne, aby jeden zakres obejmował osoby nieletnie "0-18 lat", a dopiero rekordy osób dorosłych były podzielone na węższe, ale równe szerokości np. 10 lat. Popularnym podziałem na podstawie wieku (a właściwie roku urodzenia) jest również wyodrębnienie generacji, wyodrębnionych w naukach społecznych. Rosnąca liczba badań socjologicznych, ale też działań marketingowych opiera się na podziale na pokolenie X (Boomerzy, urodzeni w latach 60. i 70. XX wieku), pokolenie Y (Milenialsi, urodzeni w latach 80. i 90. XX wieku) oraz pokolenie Z (Zoomerzy, urodzeni w XXI wieku). Chociaż punkty podziału grupowania tego rodzaju mogą różnić się nieco w zależności od źródła, doskonale ilustruje to fakt, że nie zawsze jest konieczne, aby tworzone grupy miały równą szerokość przedziałów lub liczebność. Podjęcie takiej decyzji wymaga jednak pewnej ekspertyzy w zakresie celu analizy.
Rekordowanie - krok po kroku
Rekodowanie zmiennych ilościowych na jakościowe stanowi istotne narzędzie w analizie danych, które ułatwia zrozumienie danych, dostosowuje dane do określonych potrzeb technik statystycznych i może poprawiać jakość analizy. Istnieje wiele różnych metod rekodowania, takich jak podział na równe przedziały, równe liczebności lub rekodowanie z uwzględnieniem celu analizy, które można dostosować do konkretnej sytuacji badawczej. Decyzja o rekodowaniu zmiennej ilościowej na jakościową oraz wybór odpowiedniej metody ostatecznie zależą więc od kontekstu badania i celu analizy danych. Rekodowanie zmiennych w PS IMAGO PRO omówiliśmy krok po kroku na nagraniu. Zachęcamy do jego obejrzenia i praktyki!