Czym jest rangowanie?
Rangowanie polega na uszeregowaniu obserwacji ze względu na jedną zmienną i nadaniu im nowych wartości w postaci rang. Rangą może być kolejny numer obserwacji po uporządkowaniu ich według wartości zmiennej. Przy przypisaniu rang pozbywamy się informacji o różnicy pomiędzy kolejnymi obserwacjami, co jest pomocne, gdy występują wartości odstające. Zazwyczaj stosuje się uporządkowanie rosnące, zaczynając przypisywać rangi od 1. Zakładamy, że różnica między pierwszym elementem a drugim jest taka sama jak różnica między elementem drugim i trzecim itd.
Po co stosuje się rangowanie?
Załóżmy, że mamy takie wyniki testu przeprowadzonego wśród studentów: 68, 72, 78, 80, 80, 81 i 100 punktów. Ostatni student uzyskał wynik wyróżniający go w porównaniu do innych studentów. Jak to zaznaczyc? Przechodząc na wartości rang. Wynik 100 punktów jest ostatnim, pojedynczym, najwyższym wynikiem, a różnica od poprzedników jest równa jednej randze. Rangowanie jest zatem przydatne w przypadku rozkładów z wartościami odstającymi, asymetrycznymi albo mówiąc ogólniej, rozkładów niezbliżonych do rozkładu normalnego. Rangowanie pozwala również na stosowanie testów statystycznych w odniesieniu do zmiennych porządkowych. Przekształcenie danych wejściowych polegające na utworzeniu rang i korzystanie z nich zamiast pierwotnych wartości i jest często pierwszym krokiem podczas stosowania testów nieparametrycznych, np. testu U Manna-Whitneya, Kruskala-Wallisa, rho-Spearmana lub innych.
Rodzaje rang
Możemy wyróżnić kilka rodzajów rang, m.in.:
- rangi proste,
- rangi wiązane,
- rangi ułamkowe,
- oraz procentowe.
Na początku przyjrzyjmy się rangom prostym. Załóżmy, że mamy dane o wyniku uczestników biegu na 200 metrów. Interesuje nas zajęte przez zawodników miejsce, tj. kolejność przybycia na metę. Jeżeli każdy zawodnik ukończył bieg w innym czasie, to przypiszemy im rangi proste.
Tabela 1. Rangi proste
W rangowaniu prostym ranga nadawana jest po posortowaniu ze względu na zmienną nadająca porządek rekordów w zbiorze – w tym przykładzie jest to czas ukończenia biegu. Kierunek tego sortowania może być dowolny. Może nas interesować, aby pierwsze miejsce otrzymał biegacz z najszybszym czasem, ale również możemy być zainteresowani odwrotną sytuacją.. Na przykład rangujemy wyniki zawodów w konkurencji rzutu oszczepem. W takiej sytuacji chcemy, aby ranga z wartością 1 była przypisana zawodnikom, którzy rzucili oszczep najdalej.
Wróćmy do przykładu biegu na dystansie 200 m. W sytuacji, gdy dwóch lub więcej zawodników uzyska taki sam czas ukończenia biegu musimy przyznać miejsce ex aequo. Wykorzystujemy do tego tzw. rangi wiązane (z ang. tied ranks). Najczęściej stosowaną metodą tworzenia rang wiązanych jest obliczenie średniej z rang powtórzonych i przypisanie jej do zawodników o tym samym czasie.
Tabela 2. Rangi wiązane
W ten sposób bardzo często możemy otrzymać rangi o wartościach po przecinku.
Innym sposobem na poradzeni sobie z taką sytuacją, jest przypisanie zawodnikom o tym samym czasie najmniejszej lub największej rangi. W takim przypadku rangi będą wyglądać następująco:
Tabela 3. Najmniejsza i największa ranga wiązana
Obok rang regularnych, tj. prostych i wiązanych, o których była mowa do tej pory, możemy wyznaczać też rangi ułamkowe i procentowe. Wartość rangi ułamkowej można obliczyć dzieląc wartość rangi regularnej przez sumę wag obserwacji bez braków danych. Zauważmy, że rangi ułamkowe są obliczane na podstawie wyznaczonych rang regularnych, więc w zależności od wybranych typów wiązań, dostaniemy odpowiednie wartości rang ułamkowych. Jeśli natomiast chcemy otrzymać rangi procentowe to otrzymane rangi ułamkowe mnożymy przez 100%.
Tabela 4. Ranga wiązana, ułamkowa i procentowa
Zastosowanie rang ułamkowych i procentowych stosuje się często w przypadku, gdy musimy porównywać zmienne o różnym udziale braków danych.
Podsumowując, rangowanie pozwala na uniezależnienie się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających i skrajnych. Często badane zjawisko jest mierzone na skali porządkowej, a zebrane dane odbiegają od rozkładu normalnego co powoduje, że zastosowanie testów parametrycznych jest niezasadne. Z pomocą przychodzą wtedy testy nieparametryczne, w których to często pierwszym krokiem jest przypisanie rang zebranym danym. Warto również pamiętam, że rangowanie niesie ze sobą pewnego rodzaju niedogodności, mianowicie eliminuje część informacji, jakie zostały zebrana. Wielkość różnić między poszczególnymi obserwacjami jest często ważną informacją, która to przy rangowaniu jest usuwana i nie brana pod uwagę w analizie.