Sprinterska analiza predykcyjna – automatyzacja w modelowaniu liniowym

Spis treści [Ukryj]

Dzisiejszy artykuł jest wstępem do Automatycznego modelowania liniowego.

To pierwsza część krótkiej serii mającej przybliżyć jedną z procedur do tworzenia modeli liniowych w IBM SPSS Statistics / PS IMAGO PRO.

Procedura ma na celu ułatwić życie przede wszystkim osobom, które pracują na dużych zbiorach danych i chcą korzystać z modeli regresji.Automatyczne modele liniowe pozbawione są wielu ustawień zaawansowanych oraz opcji zapisu wyników służących do eksploracji modeli znanych z innych procedur regresyjnych. Ale - podobnie jak każda inna procedura tego typu - umożliwiają przyspieszenie i usprawnienie pracy z danymi.

Jakie są różnice?

Tradycyjnie do analizy regresji w IBM SPSS Statistics / PS IMAGO PRO używa się procedury Regresji liniowej (REGRESSI0N). W wersji 19. programu wprowadzono dodatkowo procedurę LINEAR , której poświecimy ten i kilka kolejnych artykułów. Dedykowana jest ona analizom predykcyjnym kojarzonym z zastosowaniami w data miningu. Zarówno jedna i druga z tych metod ma swoje zalety oraz wady, zwolenników oraz przeciwników. My skupimy się dzisiaj na tym, jakie korzyści mogą wiązać się ze stosowaniem procedury LINEAR oraz jak zbudować prosty model i skorzystać z wyników. W klasycznej procedurze regresji mamy do wyboru wiele różnych technik doboru zmiennych do modelu. Techniki te pochodzą z rodziny metod tzw. kroczących (np. krokowa postępująca, selekcji postępującej czy eliminacji wstecznej). Dobór zmiennych do modelu jest w tym wypadku wykonywany automatycznie, zgodnie z pewnym kryterium statystycznym. Kryteria zazwyczaj opierają się na sekwencjach testów t lub F.

W procedurze LINEAR dodatkowo dostajemy możliwość korzystania z metody all possible-subsets. Model regresji (REGRESSION) daje nam możliwość przeprowadzenia szczegółowej analizy wartości odstających i wpływających. Możemy zapisać do zbioru takie statystyki jak odległość Cooka, czy DfBety. Wykonując model w sposób automatyczny z wykorzystaniem funkcji LINEAR nie mamy tej możliwości. Przypadki takie są obsługiwane już na etapie budowy modelu. Program automatycznie decyduje o tym, który z przypadków należy uznać za odstający (o czym zostajemy poinformowani stosownym komunikatem wyświetlonym w raporcie). Trzecią cechą procedury LINEAR jest możliwość budowania tzw. modeli zespolonych (ensemble model) - np. poprzez bagging lub boosting. Po czwarte wreszcie, procedura LINEAR jest dostosowana do przetwarzania dużych zbiorów danych. Jednak do wykorzystania tego atutu niezbędna jest praca z IBM SPSS Statistics / PS IMAGO PRO z wykorzystaniem serwera.

Co jest w środku?

Na początek zapoznamy się z interfejsem okna Automatycznego modelowania liniowego i obiektami wynikowymi, a także zwrócimy uwagę na opcje automatycznego przygotowania danych do analizy, które są dostępne w ramach procedury. W kolejnych krokach skupimy się na metodach wyboru predyktorów i możliwościach budowy modeli zespolonych, z którymi możemy się spotkać przy okazji pracy z wieloma technikami, nie tylko regresyjnymi. W tym artykule spróbujemy zbudować przykładowy model regresji, żeby zweryfikować, czy istnieje liniowa zależność pomiędzy sprzedażą albumów muzycznych wydanych na płytach CD, a takimi cechami jak:

  • ocena atrakcyjności wykonawcy/zespołu przez słuchaczy,
  • nakłady na reklamę,
  • liczba odtworzeń w radiu.

Opisywana procedura znajduje się w menu ANALIZA > REGRESJA >AUTOMATYCZNE MODELOWANIE LINIOWE. Przejdźmy na zakładkę ZMIENNE i dokonajmy wyboru zmiennych do analizy. 

Rys. 1. Wybór zmiennych do analizy

Rys. 1. Wybór zmiennych do analizy

 

Przenieśmy zmienną Sprzedaż do pola PRZEWIDYWANA, a pozostałe trzy zmienne (reklama, radio i atrakcyjność) na listę predyktorów. Czytelnicy korzystający z oprogramowania IBM SPSS Modeler / PS CLEMENTINE PRO mogą zauważyć, że okno to wygląda znajomo. Kolejnym podobieństwem jest możliwość zadeklarowania roli zmiennej w metadanych zbioru (zakładka ZMIENNE w GŁÓWNYM OKNIE EDYTORA DANYCH). Jeżeli zadeklarujemy rolę (wejście lub wyjście), procedura Automatycznego modelowania liniowego samodzielnie umieści zmienne w odpowiednich polach.

Rys. 2. Automatyczne przygotowanie danych

Rys. 2. Automatyczne przygotowanie danych

 

Przejdźmy na zakładkę OPCJE BUDOWANIA modelu. Na liście po lewej stronie widzimy różne grupy opcji. Dzisiaj zajmiemy się wyłącznie grupą PODSTAWOWE. Tak jak przedstawione jest to na Rys. 2, możemy w tym miejscu zdecydować się na automatyczne przygotowanie danych. Większość tych transformacji ma na celu zwiększenie możliwości predykcyjnych modelu – jeśli się na nie zdecydujemy, do budowy modelu nie zostaną wykorzystane oryginalne zmienne, tylko ich przekształcone wartości. Zastosowane transformacje są jedną z informacji jakie zachowujemy wraz z zapisem modelu. Przekształcenie na jakie decydujemy się wybierając tę opcję to:

  • Obsługa danych typu data i czas – predyktory typu data i czas zostaną przekształcone na liczbę np. miesięcy od/do dzisiejszej daty
  • Korekta poziomu pomiaru – zmienne zadeklarowane przez nas jako ilościowe z mniej niż pięcioma unikalnymi wartościami, będą traktowane jako zmienne porządkowe. Z kolei zmienne porządkowe o większej niż 10 liczbie kategorii, będą traktowane jako zmienne ilościowe.
  • Obsługa wartości odstających – wartości, które nie mieszczą się w przedziale +/- trzy odchylenia standardowe od średniej, są uważane za wartości odstające.
  • Obsługa braków danych – braki danych zmiennych jakościowych zastępowane są modalną dla skali nominalnej i medianą dla porządkowej. W przypadku zmiennych ilościowych brak danych zastępowany jest wartością średnią.
  • Kategoryzacja jakościowych predyktorów – przed obsługą zmiennych jakościowych w modelu sprawdzane jest, czy na pewno utrzymanie informacji o wszystkich kategoriach w zmiennej jest istotne z punktu widzenia przewidywania zmiennej celu. Jeśli naszym predyktorem jest zmienna jakościowa (np. poziom wykształcenia), możemy sprawdzić, czy kategorie wyodrębnione przez nas są odpowiednie. Czy wyznaczone kategorie wykształcenia dobrze różnicują to, ile ktoś zarabia? Zbyt duża ilość szczegółowych kategorii może utrudnić nam zaobserwowanie ogólnych zależności. W przypadku modeli regresji, zmienne jakościowe przed ich użyciem są przekształcane na zbiór zmiennych zero-jedynkowych. Korzystając ze zmiennych o mniejszej liczbie kategorii upraszczamy i uogólniamy nasze modele. Zmienne, których kategorie nie różnicują zmiennej przewidywalnej, w ogóle nie będą wykorzystywane w modelu.

Dodatkowo mamy jeszcze możliwość ustawienia poziomu ufności, dla którego będzie wykonana estymacja przedziałowa parametrów modelu. Standardowo jest to liczba z zakresu od 0,9 do 0,99. Przejdźmy teraz na zakładkę OPCJE MODELU. Możemy tu zdecydować o zapisie naszego modelu. Jeżeli chcemy, żeby do zbioru danych została dodana informacja o przewidywanych wartościach sprzedaży, musimy zaznaczyć pierwszą opcję, która domyślnie jest odznaczona: ZAPISZ WARTOŚCI PRZEWIDYWANE W ZBIORZE DANYCH i wybrać odpowiednią nazwę dla zmiennej wartości przewidywanych.

Rys. 3. Opcje zapisu modelu

Rys. 3. Opcje zapisu modelu

 

Dodatkowo możemy wyeksportować model do pliku Club plików) xml. Dzięki temu będziemy mogli wykorzystać model do scoringu danych przy pomocy np. Kreatora scoringu (dostępnego w menu NARZEDZIA > KREATOR SCORINGU). Możemy teraz wybrać URUCHOM. Otrzymamy w raporcie dwa obiekty wynikowe. Standardową tabelę z informacją o liczbie rekordów, które zostały wykorzystane w modelu i podsumowanie modelu. 

Rys. 4. Podsumowanie modelu

Rys. 4. Podsumowanie modelu

 

Zapoznajmy się z modelem

W podsumowaniu widzimy informacje ogólne o utworzonym modelu i przedstawione na wykresie skorygowane R2 w wartościach procentowych. Uzyskaliśmy wynik 65,2%, co w zależności od dziedziny jaką się zajmujemy, może być już zadowalającym wynikiem. Klikając dwukrotnie na obiekt w raporcie otworzymy nowe okno przeglądarki modelu, gdzie możemy przejrzeć pozostałe wyniki. Nawigujemy, wybierając obiekty z listy po lewej stronie. Pierwszy obiekt to ten, któremu mieliśmy się okazję już przyjrzeć. Zobaczmy co jest dalej. 

 

Rys. 5. Podsumowanie kroków automatycznego przygotowania danych

Rys. 5. Podsumowanie kroków automatycznego przygotowania danych

 

W drugim polu znajdziemy podsumowanie kroków automatycznego przygotowania danych. Wszystkie trzy predyktory zostały przepuszczone przez detekcję wartości odstających i po takiej transformacji zostały wykorzystane do budowy modelu. Następny obiekt przedstawia wykres ważności predyktorów. 

Rys. 6. Ważność predyktorów

Rys. 6. Ważność predyktorów

 

Ważność predyktora to miara siły wpływu danej zmiennej na wartości przewidywane (nie na poprawność tego przewidywania). Ważność dla wszystkich predyktorów reprezentuje całość - sumuje się do 1. Nasz model jest zdominowany głównie przez budżet na reklamę (0,48) i liczbę odtworzeń w radiu (0,47), ocena atrakcyjności wykonawcy lub zespołu  jest mniej istotna przy wyznaczaniu predykcji (0,05).

7.a Przewydywane względem obserwowanych

Rysunek 7a. Przewydywane względem obserwowanych

 

Rysunek 7 b. Reszty

Rysunek 7b. Reszty

 

Rysunek 7c. Reszty

Rysunek 7c. Reszty

 

Do przeglądania wyników mamy jeszcze do wyboru trzy inne formy wizualizacji. Po pierwsze, wykres rozrzutu pomiędzy sprzedażą przewidywaną przez model a faktycznie osiągniętym rezultatem. Gdyby nasz model przewidywał wartość każdej obserwacji bezbłędnie, punkty układałyby się na linii prostej biegnącej pod kątem 45 stopni. Z wykresów diagnostycznych modelu mamy do wyboru dwa wykresy do sprawdzenia założenia o normalności rozkładu reszt. Możemy wybrać histogram reszt (studentyzowanych) z dopasowaniem krzywej rozkładu normalnego lub rozkład typu P-P. Ponieważ korzystamy z danych ćwiczeniowych, oba wykresy potwierdzają normalność rozkładu, co nie zawsze zdarza się w praktyce.

 

Rys. 8. Lista wartości odstających

Rys. 8. Lista wartości odstających

 

Powyższa lista zawiera identyfikatory poszczególnych albumów muzycznych, które mają silny wpływ na model i zostały uznane przez algorytm za wartości odstające. W przypadku gdybyśmy jednej ze zmiennych (np. z nazwa płyty) przypisali rolę identyfikatora rekordu (na zakładce ZMIENNE w oknie zbioru danych), zostałaby ona wykorzystana w kolumnie ID rekordu. Wysoka odległość Cooka wskazuje na to, że usunięcie danej płyty z analizy może wpłynąć znacząco na parametry modelu. Kryterium uznania obserwacji za silnie wpływającą, jest reguła palca wskazującego Foxa, która mówi, że Odległość Cooka nie powinna być większa od 4/N-pc, gdzie N to wielkość próby a pc to liczba parametrów modelu.

Chociaż automatyczne procedury budzą wiele kontrowersji, to mają one jednak swoje zastosowania. Najczęściej takie podejście znajduje uzasadnienie przy dużej liczbie danych, a automatyczne procedury pozwalają nam wykorzystać możliwości obliczeniowe sprzętu w przeszukiwaniu i wstępnej eksploracji danych. W następnych artykułach przyjrzymy się budowie modeli, czyli opcjom, na które mamy wpływ przy budowie modeli z pomocą procedury Automatycznego modelowania liniowego.


Powiązane wydarzenia: