Tabele trwania życia w PS IMAGO PRO

Tekst przeczytasz w: 13 minut.
Prawdopodobieństwo zajścia zjawiska bardzo często uzależnione jest od czasu – im dłużej będziemy próbować, tym większa szansa, że w końcu osiągniemy sukces :).

Modelowanie czasu do wystąpienia jakiegoś zdarzenia, jako podstawowego czynnika ryzyka, jest istotnym elementem wielu problemów decyzyjnych, na przykład:

  • Jaki jest przeciętny czas bezawaryjnej pracy urządzenia?
  • Jakie jest ryzyko nawrotu choroby po określonym czasie od wyleczenia?
  • Jaki jest przeciętny staż pracy w przedsiębiorstwie?
  • Jak długo klient będzie korzystał z usług firmy?
  • Jak długo trwa czas poszukiwania pracy?
  • Ile jeszcze lat przeżyje przeciętna osoba w określonym wieku?
  • Jaka jest bezpieczna długość bloku reklamowego, przy której widz nie zmieni kanału?

Dodatkowo czas do sukcesu (lub równie dobrze wystąpienia negatywnego zjawiska) może być także uzależniony od występowania dodatkowego czynnika. Przykładowo, czas poszukiwania pracy może zależeć od posiadanych kwalifikacji a ryzyko nawrotu choroby – od przeprowadzonej terapii.

Jak widać modelowania ryzyka wystąpienia zdarzenia dotyczy wielu obszarów zastosowań technik statystycznych: marketingu, handlu, medycyny, demografii czy inżynierii. Do analizy tego typu zagadnień została stworzona grupa technik statystycznych znanych jako analiza przeżycia. W PS IMAGO PRO dostępne są w tej grupie następujące techniki: klasyczne Tabele trwania życia, Tabele Kaplana-Meiera oraz Regresja Coxa. Wszystkie one szacują czas, jaki upływa do zajścia jakiegoś zdefiniowanego zdarzenia.

 

Specyfika techniki i podstawowe pojęcia

Tabele trwania życia to klasyczna, nieparametryczna metoda analizy historii zdarzeń. Narodziła się ona już w XVII wieku w wyniku badań demograficznych Johna Graunta nad narodzinami i zgonami mieszkańców Londynu. Jako pierwszy poddał statystycznej analizie umieralność w różnych przedziałach wiekowych. Tabele Kaplana-Meiera stanowią ulepszenie klasycznych tabel przeżycia, ale logika ich interpretacji pozostaje taka sama. Regresja Coxa to w uproszczeniu regresja liniowa, ale dedykowana analizie czasu jaki upływa do momentu zajścia zdarzenia.

Do przeprowadzenia analizy potrzebujemy następujących informacji zapisanych w zbiorze danych:

  • Czas, jaki upłynął od początku obserwacji
  • Informacja o wystąpieniu lub braku analizowanego zdarzenia

Czy do tego rodzaju danych możemy wykorzystać inne klasyczne techniki, jak regresja liniowa albo regresja logistyczna? Niestety nie będzie to prawidłowe podejście. Kluczowym problemem jest to, że najczęściej w zbiorze danych posiadamy informacje o pomiarach rozpoczętych w różnym czasie. Podajemy więc stan historycznych procesów na dany moment, ale mogły się one rozpocząć z różnym opóźnieniem. W efekcie oznacza to, że część przypadków jest obserwowana zbyt krótko, aby mogło dla nich wystąpić określone zjawisko. Z drugiej strony informacja o niewystąpieniu zjawiska kumuluje się w kolejnych przedziałach czasowych. Skoro coś wydarzyło się w danym momencie to znaczy, że nie wydarzyło się wcześniej. Tabele trwania życia, w odróżnieniu od stacjonarnych technik statystycznych, uwzględniają to zjawisko – przypadki, dla których po określonym czasie nie wystąpiło zjawisko nie są już uwzględniane w ocenie prawdopodobieństwa zajścia zdarzenia dla przypadków obserwowanych w kolejnych, późniejszych przedziałach czasu.

Upraszczając, gdyby wszystkie pomiary rozpoczęły się w tym samym czasie (np. badamy osoby, które poddano terapii w tym samym momencie, albo tylko samochody z jednego rocznika) to wówczas moglibyśmy modelować prawdopodobieństwo zajścia zdarzenia (nawrotu choroby albo wystąpienia usterki) za pomocą regresji logistycznej. Z drugiej strony moglibyśmy wyselekcjonować tylko dane o zepsutych urządzeniach – wówczas możemy modelować czas bezawaryjnego działania na podstawie innych cech produktów. Za każdym razem nie jest to jednak to o co nam chodzi.

Specyfika tabel przeżycia polega więc na modelowaniu prawdopodobieństwa zajścia zdarzenia od początku trwania pomiaru. W tym celu omawiana technika wykorzystuje dwie funkcje:

  • funkcja przeżycia: prawdopodobieństwo przeżycia, czyli skumulowane prawdopodobieństwo niewystąpienia zdarzenia od początku trwania pomiaru do określonego momentu w czasie.
  • funkcja hazardu: chwilowe prawdopodobieństwo zajścia zdarzenia w danym przedziale czasowym dla przypadków, dla których owo zdarzenie do tej pory nie wystąpiło

Ważnym pojęciem związanym z analizą przeżycia jest cenzurowanie obserwacji:

  • cenzurowanie prawostronne: dotyczy obserwacji, dla których czas pomiaru był zbyt krótki, żeby mogło wystąpić zdarzenie. Jest to typowa, opisywana w poprzednim akapicie sytuacja dla tablic przeżycia i takie obserwacje są uwzględniane w analizie.
  • cenzurowanie lewostronne: dotyczy obserwacji, dla których moment początku pomiaru jest nieznany. Takie obserwacje nie mogą być wykorzystane w analizie za pomocą klasycznych tabel przeżycia. Przykładem może być ocena stanu zdrowia pacjenta, jednak bez informacji o momencie zdiagnozowania choroby.
  • cenzurowanie przedziałowe: dotyczy obserwacji, dla których znany jest jedynie przybliżony początek pomiaru lub też moment końca pomiaru lub zajścia zdarzenia. Takie obserwacje również nie mogą zostać uwzględnione w analizie.

Analiza przeżycia jest techniką nieparametryczną. Oznacza to, że nie stawiamy żadnych założeń dotyczących kształtu i parametrów rozkładu funkcji przeżycia oraz funkcji hazardu. Nie oznacza to jednak, że w analizie możemy wykorzystać dowolne dane. Kilka założeń dotyczy czasu trwania obserwacji danego przypadku. Przede wszystkim konieczna jest znajomość początku pomiaru – zmienna opisująca czas obserwacji nie powinna więc posiadać braków danych. Czas powinien być zmienną ilościową oraz zostać określony w tych samych jednostkach dla wszystkich obserwacji. Dodatkowo definicja początku pomiaru zdarzenia musi być taka sama dla wszystkich analizowanych przypadków. Przykładowo, gdybyśmy analizowali ryzyko rozstania ze względu na czas pozostawania w związku to musielibyśmy w ten sam sposób zdefiniować początek związku międzyludzkiego dla każdej obserwowanej pary – czy będzie to pierwsza randka, oświadczyny, czy ślub.

Zdarzenie określamy za pomocą zmiennej dychotomicznej określającej wystąpienie lub niewystąpienie analizowanego zjawiska. Podobnie jak w przypadku początku pomiaru, także i wystąpienie zdarzenia powinno być zdefiniowane tak samo dla każdego przypadku. Przykładowo dla analizy ryzyka rozwodu należy podjąć decyzję, czy będzie to formalne orzeczenie rozwodu, czy też wystarczy złożenie wniosku rozwodowego. Definicji nie możemy zmieniać w trakcie trwania analizy.

Ważne jest to, że wystąpienie zdarzenia w danym interwale czasowym lub też koniec czasu obserwacji wyklucza dany obiekt z dalszych analiz i w konsekwencji nie bierze już on udziału w szacowaniu prawdopodobieństwa wystąpienia zjawiska. Zdarzenie może więc wystąpić tylko raz.

Tabele przeżycia pozwalają także na wykorzystanie dodatkowych dwóch zmiennych jakościowych w analizie. Pozwala to na porównanie przebiegu funkcji przeżycia w podgrupach i oceny na tej podstawie wpływu dodatkowego czynnika na prawdopodobieństwo wystąpienia zdarzenia. Dodatkowa zmienna niezależna powinna być jednak zmienną jakościową.

 

Dane: ocena ryzyka wystąpienia awarii

Przyjrzyjmy się przykładowym danym dotyczącym wystąpienia awarii produkowanego urządzenia. Analizie poddamy 863 obiekty – w 343 przypadkach (39,7%) nastąpiła awaria. Zestawienie zostało zaprezentowane poniżej.

Rysunek 1. Liczba urządzeń ze stwierdzonymi usterkami

Rysunek 1. Liczba urządzeń ze stwierdzonymi usterkami

 

Podstawową zmienną niezależną jest dla nas czas użytkowania. Jest on wyrażony w latach.

 

Rysunek 2. Czas użytkowania urządzeń

Rysunek 2. Czas użytkowania urządzeń

 

Urządzenia były więc użytkowane od 0 (poniżej 1 roku) do 6 lat. Za początek obserwacji przyjmiemy datę sprzedaży urządzenia. 8,5% urządzeń było zakupionych krócej niż rok przed zebraniem danych a rok od zakupu minął dla 12,2% urządzeń. Przyjmijmy, że wiek zaokrąglamy w dół – wyrażamy go w latach skończonych (2,5 roku to nadal są pełne 2 lata). Zgodnie z założeniami tabel trwania życia, awaria eliminuje dany produkt z dalszej obserwacji. Czas to w istocie okres bezawaryjnego użytkowania produktu, który kończy pierwsza zgłoszona usterka.

Niestety w tym miejscu warto sobie zdawać sprawę, że nie mamy wpływu na szereg czynników, takich jak warunki użytkowania (zwykle gwarancja wymusza odpowiedni sposób użytkowania sprzętu) ani na to, czy konsument rozpoczął użytkowanie w momencie zakupu. Prawdopodobnie nie wszyscy klienci zgłaszają usterki do serwisu. Z tymi zastrzeżeniami możemy przystąpić do analizy.

Na początku przyjrzyjmy się tabeli krzyżowej obrazującej relację pomiędzy czasem użytkowania a występowaniem awarii. Na jej przykładzie postaram się wytłumaczyć, dlaczego normalne, stacjonarne metody analizy zjawisk zależnych od czasu mogą prowadzić do błędnych wniosków.

 

Rysunek 3. Relacja pomiędzy czasem użytkowania a awarią

Rysunek 3. Relacja pomiędzy czasem użytkowania a awarią

 

 

Pierwszy ogląd tabeli dostarcza bardzo pesymistycznego obrazu. Urządzenia wydają się być bardzo awaryjne już od początku użytkowania. Czy tak jest w istocie? 34,2% urządzeń wykorzystywanych krócej niż rok odnotowało awarię. Następnie 39,0% urządzeń wykorzystywanych rok również odnotowało usterkę. Niestety wnioski wyciągnięte na podstawie takiej tabeli są błędne z prostego powodu. Urządzenia, dla których usterka wystąpiła w danym momencie czasu, bezawaryjnie przeszły wszystkie poprzednie okresy. Czyli obiekty, dla których awaria nastąpiła po dwóch latach użytkowania bezawaryjnie funkcjonowały przez dwa poprzednie, roczne interwały czasowe. Koniecznie należy zrozumieć tę różnicę. 34,2% urządzeń obserwowanych krócej niż rok (i nie więcej) uległo awarii. Ale to nie oznacza, że taki odsetek urządzeń zepsuje się po roku. Aby to obliczyć konieczne jest wykorzystanie skumulowanej informacji ile urządzeń było wykorzystywanych przez dłuższy czas. Analiza przeżycia pozwala na uwzględnienie tego faktu w ocenie prawdopodobieństwa występowania zdarzenia, na podstawie tabel krzyżowych każdorazowo należałoby dokonywać czasochłonnych obliczeń.

 

Tabele trwania życia – procedura i interpretacja wyników

Aby wykonać analizę uruchommy procedurę: Analiza -> Analiza Przeżycia -> Tabele trwania życia.

Rysunek 4. Kreator procedury

Rysunek 4. Kreator procedury

 

W kreatorze tabel przeżycia wskazujemy zmienną opisującą czas. Musimy również zdefiniować, jaki zakres czasu nas interesuje i w jakich przedziałach będziemy analizować zjawisko. Ustawień dokonujemy w sekcji Wyświetl przedziały czasowe. W kreatorze należy także wskazać zmienną statusu (wystąpienie zdarzenia) i wskazać w menu Definiuj zdarzenie jaka wartość zmiennej określa, czy zdarzenie wystąpiło. Przejdźmy do opcji.

 

Rysunek 5. Kreator procedury – opcje

Rysunek 5. Kreator procedury – opcje

 

Menu pozwala na zdefiniowanie elementów raportu. Zamówione obiekty zostaną omówione podczas interpretacji rezultatów analizy. Po wybraniu odpowiednich wykresów przejdźmy do omówienia wyników analizy.

Najważniejszym obiektem wynikowym jest tabela trwania życia. Za jej pomocą dokonujemy interpretacji wyników, stanowi ona również podstawę do tworzenia wizualizacji zamieszczonych w raporcie. Przyjrzyjmy się jej budowie.

 

Rysunek 6. Tabela przeżycia

Rysunek 6. Tabela przeżycia

 

Kolejne wiersze tej tabeli reprezentują przedziały czasowe. Każdy przedział opisany jest momentem startowym. Zacznijmy od liczby przypadków, które następnie wykorzystywane są od szacowania prawdopodobieństw zamieszczonych w kolejnych kolumnach. Znajdują się one w pierwszych czterech kolumnach i dotyczą obserwacji, dla których czas pomiaru mieścił się w analizowanym przedziale.

  • Liczba wprowadzonych w przedziale: liczba przypadków, dla których od początku pomiaru do momentu startowego przedziału nie wystąpiło zdarzenie. Potocznie można stwierdzić, że są to obserwacje, które dożyły do początku danego przedziału.
  • Liczba wycofanych w przedziale: liczba przypadków cenzurowanych w danym przedziale. Liczba przypadków, dla których skończył się czas pomiaru, ale zjawisko nie wystąpiło
  • Liczba wystawionych na ryzyko: liczba wprowadzonych przypadków pomniejszona o połowę liczby przypadków wycofanych.
  • Liczba zdarzeń terminalnych: liczba przypadków, dla których wystąpiło analizowane zjawisko w danym przedziale.

Te cztery wartości pozwalają odkryć logikę stojącą za konstrukcją tabel trwania życia. W pierwszym przedziale mamy wszystkie obserwacje. Na kolejnym etapie odpadają te obserwacje, dla których pomiar trwał zbyt krótko i kończył się w danym przedziale czasowym bez wystąpienia zjawiska (przypadki wycofane) albo dla których wystąpiło dane zjawisko (zdarzenia terminalne). Do kolejnego przedziału wchodzą więc obserwacje, dla których zjawisko nie wystąpiło w poprzednim przedziale czasowym i pomiar nie został zakończony.

Podstawą do oszacowania prawdopodobieństwo wystąpienia zdarzenia jest liczba wystawionych na ryzyko. Przyjmuje się, że statystyki obliczane są dla środka przedziału oraz, że obserwacje są wycofywane równomiernie w trakcie przedziału. Dlatego też podczas obliczania tej wartości wykorzystywana jest połowa obserwacji wycofanych w danym przedziale. To założenie nie zawsze znajduje potwierdzenie w danych, jeżeli wykorzystujemy szerokie przedziały czasowe i porównamy je z danymi dla przedziałów niepoddanych agregacji. Często jednak agregacja jest rozsądną opcją analizy dla niewielkich zbiorów danych lub też dla długotrwałym pomiarów.

W następnej kolejności PS IMAGO PRO oblicza wartości, które nieco później zostaną wykorzystane do nakreślenia krzywej przeżycia. Są to kolejno:

  • Odsetek śmiertelnych: mówi nam o tym, dla jakiej części przypadków narażonych na ryzyko zajścia zdarzenia ono faktycznie wystąpiło w danym przedziale czasowym. Jest to więc liczba zdarzeń terminalnych podzielona przez liczbę wystawionych na ryzyko w środku przedziału.
  • Odsetek przeżywających: dla jakiej części obserwacji spośród narażonych na ryzyko zjawisko nie wystąpiło. Fizycznie to 1-odsetek śmiertelnych.
  • Skumulowany odsetek przeżywających dla ostatniego interwału: dla jakiej części spośród wszystkich przypadków obserwowanych przez określony czas (granicą jest tutaj koniec trwania przedziału) nie wystąpiło analizowane zjawisko. Jest to więc odsetek obserwacji, które przeżyły do końca danego przedziału czasowego. Od strony obliczeniowej jest to odsetek obserwacji, które przeżyły do końca poprzedniego przedziału pomnożony przez odsetek obserwacji przeżywających dany przedział.

Skumulowany odsetek przeżywających stanowi podstawę do stworzenia wykresu obrazującego skumulowaną funkcję przeżycia. Wykres został zmieszczony poniżej.

 

Rysunek 7. Funkcja przeżycia

Rysunek 7. Funkcja przeżycia

 

Funkcja przedstawia odsetek obserwacji, dla których do rozpoczęcia danego przedziału zjawisko nie wystąpiło. Czyli do rozpoczęcia pomiarów (czas = 0) wszystkie urządzenia były sprawne (kolejne bardzo optymistyczne założenie). Do początku pierwszego przedziału, czyli podczas użytkowania trwającego krócej niż rok awarii nie uległo 97% urządzeń. Pierwszy rok użytkowania bezawaryjnie przetrwało 92% urządzeń.

Analizując funkcję przeżycia możemy sobie zadać pytanie, jaki jest przeciętny czas bezawaryjnego działania urządzenia. W tabelach przeżycia, ze względu na problematyczność obliczeń, nie wykorzystuje się do tego celu średniej, lecz medianę oraz inne miary pozycyjne (najczęściej kwartyle). Mediana mówi nam o tym, po jakim czasie zjawisko wystąpiło dla połowy obserwacji. Wartość ta została zaraportowana w stopce tabeli przeżycia i wynosi 5,7. Tyle czasu (prawie 5 lat i 3 kwartały) bezawaryjnie działała połowa urządzeń.

Odwrotność funkcji przeżycia, czyli skumulowany odsetek obserwacji, dla których zaszło analizowane zjawisko do początku określonego przedziału czasowego prezentuje poniższy wykres.

 

Rysunek 8. Jeden minus funkcja przeżycia

Rysunek 8. Jeden minus funkcja przeżycia

 

Wartości zamieszczone na wykresie możemy w prosty sposób obliczyć odejmując od jedynki skumulowany odsetek przeżywających dla ostatniego interwału. Przed rozpoczęciem pomiarów żadne urządzenie nie uległo awarii, natomiast przed zakończeniem pierwszego roku użytkowania awarii uległo 3% urządzeń. Przed rozpoczęciem drugiego roku problem awarii dotyczył już 8% użytkowanych produktów.

Warto tutaj zwrócić uwagę, że na powyższych wykresach zostały zaprezentowane odsetki obserwacji w momencie startowym danego przedziału a nie, jak jest w tabeli, stan na koniec danego przedziału.

Ostatnie 2 wartości, które chciałbym omówić to prawdopodobieństwa związane z wystąpieniem zdarzenia w danym przedziale. W odróżnieniu od wartości funkcji przeżycia nie są to wartości skumulowane (czyli szacowane od początku trwania pomiaru). Wyrażają prawdopodobieństwo w danym interwale czasowym. Dodatkowo, obydwie wartości obliczane są osobno dla każdego przedziału, ale z uwzględnieniem jednostki, w której mierzony jest czas.

  • Gęstość prawdopodobieństwa: prawdopodobieństwo zajścia zdarzenia w danym przedziale w jednostce czasu. Prawdopodobieństwo dla całego przedziału obliczane jest jako różnica pomiędzy odsetkiem obserwacji, które przeżyły do końca poprzedniego interwału a odsetkiem obserwacji, które przeżyły do końca danego przedziału czasowego. Wynik jest następnie dzielony przez długość przedziału.
  • Ocena hazardu: prawdopodobieństwo zajścia zdarzenia w danym przedziale w jednostce czasu dla przypadków, dla których zdarzenie do tej pory nie wystąpiło. Jest to liczba zdarzeń terminalnych podzielona przez liczbę obserwacji wystawionych na ryzyko w środku przedziału. Aby oszacować taką wartość, należy od liczby obserwacji wystawionych na ryzyko odjąć połowę liczby zdarzeń terminalnych. Wynik dzielenia ponownie trzeba podzielić przez długość interwału.

Dzielenie wartości przez rozwartość przedziałów prowadzi de facto do uśrednienia wyniku na jednostkę, w której prowadzony jest pomiar. Przykładowo, gdyby przedziały wyrażały tygodnie a czas mierzony byłby w dniach to wynik oznaczałby przeciętne dzienne prawdopodobieństwo zajścia zdarzenia w danym tygodniu od rozpoczęcia pomiarów.

Obydwie wartości można zaprezentować na wykresach. Mimo różnic w szczegółowej interpretacji dostarczają w naszym przypadku podobnego obrazu awaryjności.

 

Rysunek 9.Funkcja gęstości

Rysunek 9.Funkcja gęstości

 

Prawdopodobieństwo awarii podczas użytkowania krótszego niż rok wynosiło 3%. Podczas kolejnych dwóch lat użytkowania wynosiło ono 5% i 6%. Widać, że awaryjność wyraźnie wzrasta po 3 latach użytkowania.

Ocena hazardu często określana jest również jako siła śmiertelności i oddaje chwilową zmianę prawdopodobieństwa zajścia zdarzenia w danym interwale, po uwzględnieniu jednostki czasu, w jakim dokonywany jest pomiar. Znowu jest to więc przeciętne prawdopodobieństwo zajścia zdarzenia w danym przedziale.

 

Rysunek 10. Funkcja hazardu

Rysunek 10. Funkcja hazardu

 

Ocena hazardu jest nieco trudniejsza w interpretacji, ale zazwyczaj ma bardziej dynamiczny przebieg niż funkcja gęstości. Prawie 6% urządzeń, które bezawaryjnie przepracowały rok zepsuje się w podczas kolejnego roku. 12% urządzeń, które pracowały bez usterek przez okres 3 lat prawdopodobnie zepsuje się podczas kolejnego roku użytkowania.

 

Tabele trwania życia – porównanie wyników w podgrupach

Procedura tabel trwania życia pozwala również na wykorzystanie czynnika jakościowego w analizie. Pozwala to porównać tabele oraz wykresy tworzone na jej podstawie w podgrupach. Dodatkowo użytkownik ma możliwość wykonania testu statystycznego, który mówi o istotności różnic pomiędzy funkcjami przeżycia w wyróżnionych podgrupach.

Wyobraźmy sobie, że urządzenia są produkowane w dwóch wersjach i jednym z celów naszej analizy jest porównanie występowania usterek pomiędzy nimi. W prezentowanym wcześniej kreatorze należy wskazać czynnik poprzez przeniesienie wybranej zmiennej jakościowej do pola Czynnik a następnie zdefiniowanie zakresu wartości – poziomów, które mają być ze sobą porównywane. Dodatkowo w menu Opcje w sekcji Porównanie poziomów pierwszego czynnika należy wybrać sposób porównań (parami albo całość).

Nie będziemy już w tym miejscu przywoływać poszczególnych obiektów wynikowych. Interpretacja tabeli przeżycia nie różni się od tej zaprezentowanej w tekście. Wyniki są jedynie prezentowane w podziale na poszczególne podgrupy.

Nowy obiektem w raporcie jest natomiast tabela z zestawieniem median czasu przeżycia dla poszczególnych poziomów wykorzystanego czynnika. Została ona zamieszczona poniżej.

 

Rysunek 11. Porównanie median w podgrupach

Rysunek 11. Porównanie median w podgrupach

 

Mediana ogółem wynosiła 5,7. Jak widać mediany w podziale na wersje analizowanego urządzenia różnią się od siebie. Połowa urządzeń w wersji C1 bezawaryjnie funkcjonowała prawie 6 lat, natomiast w wersji C2 ten czas był o pół roku krótszy.

 

Rysunek 12. Porównanie funkcji hazardu w podgrupach

Rysunek 12. Porównanie funkcji hazardu w podgrupach

 

Dla przykładu prześledźmy przebieg funkcji hazardu dla dwóch wersji urządzenia. Jak widać chwilowe prawdopodobieństwa wystąpienia awarii różnią się w poszczególnych przedziałach czasowych. Co ciekawe różnica widocznie zwiększa się w trzecim roku użytkowania produktów, choć później już nie obserwujemy jej pogłębiania się. Do trzech lat użytkowania obydwie wersje urządzenia odnotowują natomiast podobną awaryjność.

Ostatnim nowym elementem raportu jest test rozkładów funkcji przeżycia. Tabela została zamieszczona poniżej.

 

Rysunek 13. Test rozkładów funkcji przeżycia

Rysunek 13. Test rozkładów funkcji przeżycia

 

Statystyka Wicoxona służy do przetestowania hipotezy, że rozkłady funkcji przeżycia w analizowanych grupach są sobie równe. Do testowania wykorzystywany jest porządek rangowy obserwacji, podobnie jak w klasycznym nieparametrycznym odpowiedniku testu t. W tym przypadku możemy odrzucić hipotezę zerową (jeżeli za poziom istotności uznamy 0,05) i uznać, że funkcje przeżycia różnią się od siebie.

Na zakończenie warto dodać, że jeżeli czynnik posiada więcej niż 2 poziomy test możemy przeprowadzić na 2 sposoby (podobnie jak w przypadku analizy wariancji i testów post-hoc):

  • Porównanie całkowite: test hipotezy że wszystkie funkcje przeżycia w podgrupach mają ten sam rozkład
  • Porównania parami: test istotności różnicy pomiędzy funkcjami przeżycia dla poszczególnych par poziomów czynnika (porównanie każdy z każdym).

Tabele przeżycia są jedną z klasycznych technik analizy ryzyka wystąpienia zjawiska w zależności od czasu. Mimo prostego sposobu obliczania dają bardzo duże możliwości w zakresie oceny zjawiska i interpretacji wyników. Mogą być także, mimo typowo demograficznej terminologii, z powodzeniem wykorzystywane w wielu branżach. Specyfika danych (kumulatywna analiza czasu obserwacji) sprawia, że stanowią nierzadko niezbędne uzupełnienie dla klasycznych modeli predykcyjnych, a także technik opartych o modelowanie szeregów czasowych.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO

Zaletą tabel przeżycia jest prosta interpretacja. Istotnym ograniczeniem tej techniki, o którym warto wspomnieć, jest brak możliwości oceny siły wpływu czynnika jakościowego na przebieg funkcji przeżycia. Możemy tylko stwierdzić, że dwie funkcje przebiegają w ten sam lub odmienny sposób. Takie możliwości daje regresja Coxa. Również bezpośrednie wykorzystanie predyktorów ilościowych (bez uprzedniej kategoryzacji) nie jest możliwe w tej technice. Tutaj również możliwe jest wykorzystanie wspomnianej regresji Coxa, którą omówimy w jednym z kolejnych wpisów na temat analiz przeżycia.


Oceń artykuł:

Udostępnij artykuł w social mediach



Zostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.

Ustawienia dostępności
Zwiększ wysokość linii
Zwiększ odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Większy kursor