PS IMAGO PRO i PS CLEMENTINE PRO – jak zintegrować klasyczne podejście analiz statystycznych z data science

Tekst przeczytasz w:  5 minut

W codziennej pracy analitycznej często łączymy różne rozwiązania, bo każde z nich pozwala realizować inny fragment procesu. Jedno narzędzie przydaje się do pobierania i przetwarzania danych, drugie do budowania skomplikowanych modeli, a trzecie do szczegółowych analiz statystycznych. 

 

Taki podział bywa jednak kłopotliwy: wymaga przełączania się między aplikacjami i zwiększa ryzyko błędów przy przenoszeniu plików czy zmianie formatów. Z tego powodu wiele organizacji poszukuje spójnych platform, w których można płynnie łączyć różnorodne etapy pracy z danymi.

PS IMAGO PRO i PS CLEMENTINE PRO – czym są?

Rozwiązania Predictive Solutions proponują integrację PS IMAGO PRO (poszerzonej dystrybucji IBM SPSS Statistics) i PS CLEMENTINE PRO (rozszerzonej dystrybucji IBM SPSS Modeler). Umożliwia ona tworzenie zaawansowanych modeli i przeprowadzanie szczegółowych analiz w jednym środowisku, bez żonglowania plikami. Wystarczy uruchomić odpowiednie węzły statystyczne w ramach wizualnego przepływu PS CLEMENTINE PRO, które „pod maską” wywołują silnik PS IMAGO PRO.

PS IMAGO PRO i PS CLEMENTINE PRO – korzyści z narzędzi

Dlaczego warto sięgać do obydwu tych rozwiązań? PS IMAGO PRO to narzędzie stworzone z myślą o klasycznej analizie statystycznej. Umożliwia prowadzenie testów statystycznych, budowanie modeli probabilistycznych i interpretowanie wyników w sposób przyjazny dla osób przyzwyczajonych do środowiska SPSS Statistics. Świetnie sprawdza się, gdy chcemy potwierdzić istnienie określonej zależności czy zweryfikować hipotezę dotyczącą zachowania badanej populacji.

Natomiast PS CLEMENTINE PRO wspiera analizy typu data science – eksploracyjne i nastawione na wydobywanie wiedzy z dużych, często nieustrukturyzowanych zbiorów danych. Wizualna natura PS CLEMENTINE PRO ułatwia projektowanie procesów przetwarzania i analizy, a wbudowane algorytmy uczenia maszynowego pozwalają odnajdywać niuanse i wzorce, które mogą być trudne do wychwycenia standardowymi metodami.

 

Rysunek 1.

Przykładowy strumień analityczny PS CLEMENTINE PRO wykorzystujący węzły (procedury, poszczególne elementy całego strumienia) IBM SPSS Statistics, zaznaczone żółtą ramką.

 

Wspólne wykorzystanie PS IMAGO PRO i PS CLEMENTINE PRO to pomost między precyzyjnymi metodami statystycznymi a bardziej otwartym, eksploracyjnym podejściem data science. Efekt? Pełen wachlarz narzędzi do przekształcania danych, klasycznych analiz i eksploracji. Analitycy mogą nie tylko sprawdzić, czy dane zjawisko istnieje i na ile jest istotne statystycznie, ale też odkrywać zupełnie nowe wzorce i relacje, które umknęłyby w tradycyjnym podejściu.

Integracja narzędzi w praktyce

Przyjrzyjmy się konkretnym węzłom, które – rozlokowane w palecie „IBM SPSS Statistics” – pozwalają korzystać z możliwości PS IMAGO PRO w przepływach PS CLEMENTINE PRO. Każda z tych procedur pełni inną funkcję, a wspólnie składają się na kompletny zestaw do analiz i raportowania.

1. Plik Statistics – wejściowy

To węzeł, który służy do wczytywania danych w formacie właściwym dla PS IMAGO PRO (rozszerzenie .sav). Włączając go do przepływu, możemy skorzystać z całego bogactwa metadanych – etykiet wartości, informacji o brakach danych czy formatów zmiennych – zdefiniowanych wcześniej w klasycznym środowisku SPSS.

 

Rysunek 2.

Plik Statistics (import) – ikona

 

Przykład użycia: wyobraźmy sobie, że w PS IMAGO PRO powstał plik z danymi ankietowymi, w którym każda zmienna ma opis i etykiety kategorii. Zamiast importować czyste liczby, w węźle Plik Statistics załadujemy plik .sav i zachowamy metadane, co znacząco ułatwi dalszą pracę. Możemy także na tym etapie dostosować nazwy zmiennych, czy zdecydować, które zostaną uwzględnione w dalszych analizach. 

 

Rysunek 3.

Plik Statistics (import) – widok zmiennych

 

2. Przekształcenia Statistics

Ten węzeł umożliwia korzystanie z transformacji znanych z PS IMAGO PRO – takich jak obliczanie wartości, rekodowanie, czy zliczanie wystąpień. Możemy więc swobodnie przekształcać zmienne, tworzyć nowe wskaźniki i przygotowywać dane do dalszych etapów analizy lub modelowania. 

 

Rysunek 4.

Przekształcenia Statistics – ikona

 

Przykład użycia: jeśli potrzebujemy przypisać respondentów do grup na podstawie złożonego kryterium (np. poziomu dochodu, wieku i deklarowanej skłonności do zakupów), „wyklikujemy” procedurę z interfejsu okna dialogowego lub wklejamy kilka linijek składni Syntax i automatycznie otrzymujemy nową zmienną grupującą – tak, jakbyśmy to robili w samym PS IMAGO PRO.

 

Rysunek 5.

Rekodowanie zmiennych z użyciem składni komend Syntax

 

3. Model Statistics

Ten węzeł umożliwia tworzenie modeli statystycznych w taki sam sposób, jak w PS IMAGO PRO, co z pewnością docenią miłośnicy klasycznego podejścia do analizy. Możemy w nim realizować między innymi regresję logistyczną, analizę dyskryminacyjną czy drzewa decyzyjne. Co ważne, tak zbudowany model jest użytkowy, czyli zostaje integralną częścią strumienia w PS CLEMENTINE PRO i może być następnie używany w standardowy sposób np. do scoringu czy grupowania danych.

 

Rysunek 6.

Model Statistics – ikona

 

Przykład użycia: wyobraźmy sobie, że potrzebujemy zautomatyzować podział klientów na segmenty, bazując na wielu zmiennych jednocześnie (np. dane demograficzne, preferencje zakupowe, historia kontaktu). W węźle Model Statistics możemy wykorzystać do tego dwustopniową analizę skupień. Dzięki temu w ramach jednego węzła przeprowadzamy zaawansowane grupowanie, a wyniki przypisania klientów do wyodrębnionych segmentów możemy następnie wykorzystać np. do budowy spersonalizowanych kampanii marketingowych.

 

Rysunek 7.

Model Statistics – wybór procedury

 

4. Wynik Statistics

To narzędzie do generowania raportów i tabel wynikowych w stylu PS IMAGO PRO. W efekcie otrzymujemy w pełni sformatowane tabele przestawne, statystyki i wykresy. Z poziomu tego węzła dostępne są procedury analityczne PS IMAGO PRO. Wyniki możemy zapisywać w formacie *.spv, a potem, w razie potrzeby, edytować i rozbudowywać w IMAGO PRO, czy też wyeksportować je do pliku HTML.

 

Rysunek 8.

Wynik Statistics – ikona

 

Przykład użycia: załóżmy, że chcemy przedstawić kadrze zarządzającej korelacje między kluczowymi zmiennymi, takimi jak częstotliwość zakupów, wydatki i stopień zadowolenia klientów. Wystarczy dodać do przepływu węzeł Wynik Statistics, wybrać odpowiednią procedurę analizy korelacji, a następnie wygenerować raport – otrzymujemy gotowe do prezentacji tabele z współczynnikami korelacji i ich istotnością.  

 

Rysunek 9.

Wynik Statistics – zapisywanie wyników

 

5. Plik Statistics – wyjściowy

Jeśli zależy nam na zapisaniu efektów pracy w formacie .sav, ten węzeł rozwiązuje problem. Zdarza się, że po przejściu przez cały proces w PS CLEMENTINE PRO chcemy nadal opracowywać dane w PS IMAGO PRO albo po prostu zachować je jako archiwum w łatwo dostępnej dla innych członków zespołu formie.

 

Rysunek 10.

Plik Statistics (eksport) – ikona

Chcesz dowiedzieć się więcej?

Zapraszamy na szkolenie:

DM 1. Metodyka projektów, przygotowanie danych i wprowadzenie do modelowania

 

Przykład użycia: po zbudowaniu modelu i przygotowaniu zestawu do scoringu można zapisać dane wraz z nowymi zmiennymi (np. przewidywaną wartością sprzedaży czy prawdopodobieństwem rezygnacji klienta) w formacie .sav, by inni analitycy mogli później przeprowadzić dodatkowe testy czy analizy w klasycznym środowisku PS IMAGO PRO.

 

Dzięki przedstawionym procedurom zyskujemy pełną kontrolę nad danymi i ich przekształceniami, nie tracąc przy tym kluczowych funkcjonalności, oferowanych przez PS IMAGO PRO. Każdy z węzłów można też dowolnie wkomponować w wizualny przepływ w PS CLEMENTINE PRO: czy to na wstępnym etapie czyszczenia danych, czy w momencie tworzenia modelu, czy na końcu procesu, kiedy chcemy przygotować końcowy raport dla zespołu.
Warto też zwrócić uwagę, że każdy z omawianych węzłów posiada inny kształt ikony. Dzięki temu łatwo możemy odróżnić np. wejściowe i wyjściowe pliki Statistics – w PS CLEMENTINE PRO wszystkie procedury importu danych są kołami, a eksportu kwadratami.

Integracja PS CLEMENTINE PRO z PS IMAGO PRO

Zintegrowanie PS IMAGO PRO i PS CLEMENTINE PRO to dla wielu zespołów analitycznych brakujące ogniwo. W jednym, przejrzystym projekcie mamy do dyspozycji zarówno klasyczne procedury statystyczne, jak i eksploracyjne algorytmy uczenia maszynowego. Nie trzeba już ręcznie przenosić danych czy martwić się o kompatybilność formatów – wszystko odbywa się w jednym strumieniu: od wstępnej obróbki aż po finalne raporty lub scoring.

W praktyce przekłada się to na znacznie większą efektywność i mniejsze ryzyko błędów. Analitycy mogą korzystać z ulubionych składni Syntax, makr i modeli z PS IMAGO PRO, a jednocześnie korzystać z elastycznej, wizualnej natury PS CLEMENTINE PRO, aby automatyzować i rozbudowywać swoje procesy. Dzięki temu wszystkie projekty – od weryfikacji prostych hipotez po wielkoskalowe predykcje – można prowadzić w spójny i uporządkowany sposób. A wszystko po to, by szybciej dotrzeć do kluczowych wniosków i podejmować lepsze decyzje opierające się na danych.

Ustawienia dostępności
Wysokość linii
Odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Wyłącz obrazki
Skup się na zawartości
Większy kursor
Skróty klawiszowe