Wartości odstające mają istotne znaczenie w analizie statystycznej. Mogą one wpływać na różne statystyki, takie jak średnia, czy odchylenie standardowe, co z kolei może wpływać na testy statystyczne, miary zależności oraz na modelowanie danych, a tym samym prowadzić do zniekształcenia wyników i wniosków. Dlatego identyfikacja i odpowiednie zarządzanie wartościami odstającymi poprzez ich zastępowanie, usuwanie lub stosowanie odpowiednich technik w analizie danych jest kluczowe dla uzyskania wiarygodnych i trafnych wyników statystycznych.
Czym są przypadki odstające?
W dużej mierze, to co zakwalifikujemy jako przypadek odstający zależy od definicji lub też tego jaką metodę szukania przypadków odstających wybierzemy. Ogólna definicja wartości odstających oznacza, że są to wartości, które znacząco różnią się od pozostałych. Przypadki odstające mogą być wynikiem błędów pomiaru urządzenia, źle dobranej próby badawczej lub błędów na etapie wprowadzania danych do pliku (np. ręcznego kodowania wyników ankiety do zbioru danych). Warto również nadmienić, że nie zawsze wartości odstające są oznaką błędów czy nieprawidłowości. Mogą one być wynikiem rzadkich zdarzeń lub istnienia podgrup danych o odmiennych właściwościach. W niektórych przypadkach wartości odstające są cennymi informacjami, które można wykorzystać do identyfikacji nietypowych zjawisk. W analizie danych istotne jest zrozumienie kontekstu i celu badania, aby właściwie interpretować wartości odstające.
Poniżej przedstawiono 3 popularne metody identyfikacji obserwacji odstających.
Identyfikacja przypadków odstających danych jednowymiarowych
Istnieje wiele sposobów identyfikacji wartości odstających. Najprostszymi sposobami wskazania, czy występują przypadki odstające jest przygotowanie wykresów skrzynkowych lub histogramów. Bardziej dokładnymi sposobami jest bazowanie na odpowiednich miarach statystycznych, według których możemy wyznaczyć, które wartości będą obserwacjami odstającymi.
Rozstęp ćwiartkowy
Omówienie metod identyfikacji zaczniemy od rozstępu ćwiartkowego, na podstawie którego mogą być wyznaczane obserwacje odstające. Rozstęp ćwiartkowy (inaczej nazywany również międzykwartylowym, IQR – ang. interquartile range), to różnica między górnym (Q3) i dolnym kwartylem (Q1) danych[1]. Popularna zasada głosi, że dana obserwacja jest przypadkiem odstającym jeśli leży o co najmniej 1,5 powyżej trzeciego kwartyla lub poniżej pierwszego kwartyla. Inaczej mówiąc, obserwacje odstające z dołu to te, które leżą poniżej Q1−1,5⋅IQR, a obserwacje odstające z góry to te, które leżą powyżej Q3+1,5⋅IQR.
Powyższa zasada ma również zastosowanie w wyznaczaniu przypadków odstających przedstawionych na wykresie skrzynkowym, który to zostanie omówiony poniżej.
Odchylenie standardowe i standaryzacja
Odchylenie standardowe mierzy, jak bardzo dane rozpraszają się wokół średniej. Wartości, które znacznie odbiegają od średniej, przy uwzględnieniu odchylenia standardowego, mogą być uznawane za odstające. Prostym sposobem na identyfikację przypadków odstających będzie standaryzacja zmiennej. Jest to rodzaj normalizacji zmiennej polegający na odjęciu od wartości zmiennej, jej średniej, a następnie podzielenie tej wartości przez odchylenie standardowe (wzór poniżej). W rezultacie otrzymamy nową zmienną, w której średnia wynosi 0, a odchylenie standardowe 1.
Wzór na standaryzację dla danej wartości (x) wygląda następująco:
gdzie:
Z– wartość wystandaryzowana
– wartość zmiennej
M – średnia wartość
– odchylenie standardowe
Przykładowo, można uznać, że wartości które są oddalone od średniej o więcej niż pewien ustalony próg (np. 2 lub 3 razy odchylenie standardowe), są uznawane za odstające. Warto również pamiętać, jeśli rozkład analizowanej zmiennej przyjmuje rozkład normalny lub jest do niego zbliżony to stosując regułę trzech sigm jesteśmy w stanie określić, że obserwacje znajdujące w zakresie 2 odchyleń standardowych od średniej to 95,4% przypadków, a w przypadku 3 odchyleń od średniej znajduje się 99,7% obserwacji. Reguła trzech sigm może być przydatna w identyfikacji obserwacji odstających. Jeśli przyjmiemy, że obserwacje znajdują się 3 odchylenia standardowe od średniej to wiemy, że odrzucimy maksymalnie 0,3% obserwacji analizowanej zmiennej.
Wykres skrzynkowy i histogram
Wykres skrzynkowy (ang. box plot) jest wizualnym narzędziem, które pokazuje rozkład danych oraz obserwacje odstające. Wartości leżące poza wąsami (liniami rozciągniętymi od skrzynki) mogą być uznawane za odstające. Wąs zawiera te obserwacje, które leżą w zakresie 1,5 lub - 1,5 rozstępu ćwiartkowego od skrzynki. Jak widać na poniższym wykresie skrzynkowym, zarówno powyżej górnego jak i dolnego wąsa znajdują się punkty. Punkty w kształcie koła to przypadki odstające. Są to wartości znajdujące się o 1,5/-1,5 do 3/-3 rozstępów ćwiartkowych od skrzynki. Punkt w kształcie gwiazdki, jest określany jako przypadek skrajny i są to obserwacje znajdujące się ponad 3/-3 rozstępy ćwiartkowe od skrzynki.
Wykres 1. Wykres skrzynkowy prezentujący rozkład zmiennej „Wzrost (cm)”
Jak widać, korzystając w wykresu skrzynkowego mamy możliwości nie tylko wizualnej prezentacji rozkładu zmiennej, ale również sprawdzenia, czy w danych występują obserwacje odstające.
Drugim typem wizualizacji, który może być pomocny w identyfikacji przypadków odstających jest histogram. Wykres ten, przedstawia rozkład częstości występowania danych w różnych przedziałach wartości (tzw. klasach). Przedziały wartości są reprezentowane na osi poziomej, a liczba wystąpień danych w każdym przedziale jest przedstawiona na osi pionowej. Wartości, które wyraźnie wyróżniają się i znajdują się na skrajnych końcach histogramu (najbardziej oddalone od reszty danych), mogą być uznawane za potencjalne wartości odstające.
Wykres 2. Histogram prezentujący rozkład zmiennej „Dochód miesięczny netto”.
Czerwonym kolorem zaznaczono potencjalne przypadki odstające
Identyfikacja przypadków odstających w PS IMAGO PRO
Korzystając z PS IMAGO PRO mamy dostępnych wiele funkcjonalności, które mogą pomóc analitykowi w identyfikacji przypadków odstających. Możemy utworzyć wykresy skrzynkowe oraz histogramy, dostępne są również funkcjonalności w zakresie procedury do walidacji oraz eksploracji danych. Wartą polecenia procedurą, pozwalającą szybko określić na podstawie własnej specyfikacji, które obserwacje mają być zaliczane do przypadków odstających jest Audyt danych.
Przechodząc do menu Predictive Solutions i wybierając Audyt danych wskazujemy, które zmienne ilościowe chcemy analizować. Następnie w opcjach, w obszarze Przypadki odstające, możemy wskazać na statystykę na podstawie, której mają być identyfikowane wartości odstające. Zakres przypadków odstających, pozwala dodatkowo zdefiniować powyżej/poniżej ilu odchyleń od średniej lub powyżej/poniżej ilu rozstępów ćwiartkowych dana wartość będzie klasyfikowana jako wartość odstająca.
Rysunek 1. Okno wyboru statystyk dla zmiennych ilościowych
w procedurze Audyt danych
W tym przykładzie posłużę się zmienną, dotyczącą liczby lat jaką badany poświecił na edukację w formie zinstytucjonalizowanej. Następnie w opcjach dla zmiennych ilościowych, w obszarze Przypadki odstające wybieram odchylenie standardowe oraz rozstęp ćwiartkowy. Pozostałe opcje pozostawiam bez zmian. W rezultacie otrzymuję tabele, która informuje ile obserwacji według wskazanych kryteriów jest zaliczanych do przypadków odstających.
Tabela 1. Tabela wynikowa procedury Audyt danych prezentująca liczbę zidentyfikowanych przypadków odstających
Podsumowanie
Wartości odstające są nietypowymi obserwacjami, które różnią się od reszty danych. Istnieje wiele metod identyfikacji wartości odstających, takich jak standaryzacja, rozstęp międzykwartylowy, wykresy skrzynkowe czy też histogramy. Interpretacja wartości odstających zależy od kontekstu i celu badania. Nie zawsze są one czymś złym, ale mogą mieć istotne znaczenie w analizie danych, wpływając na wyniki statystyczne i wnioski wyciągnięte na ich podstawie. Ważne jest aby przystępując do analizy danych zwrócić uwagę na potencjalne wartości odstające i ocenić czy wymagają one podjęcia odpowiednich działań, tak aby otrzymane wyniki były dokładne i wiarygodne.
[1] Kwantyle, kwartyle, percentyle (miary położenia) - Predictive Solutions