Opis kursu
Przeznaczeniem kursu jest zaprezentowanie zaawansowanych technik modelowania dostępnych w bibliotece scikit-learn i w Apache Spark, a zaimplementowanych i zintegrowanych z IBM SPSS Modeler/PS CLEMENTINE PRO. Umiejętność łączenia funkcjonalności różnych środowisk analitycznych zwiększa elastyczność i efektywność pracy analityka. Wspomniane wyżej środowiska stanowią istotne rozszerzenie tradycyjnie wykorzystywanych metod, dlatego w trakcie szkolenia będziemy korzystać zarówno z klasycznych metod budowy modeli, jak i rozwijać je przy pomocy algorytmów zaimplementowanych w omawianych środowiskach. Uczestnicy poznają dzięki temu takie algorytmy jak: lasy losowe, drzewa XGBoost, SVM z jedną klasą, metoda k-średnich, mieszanina rozkładów Gaussa, HDBSCAN. Po szkoleniu uczestnicy będą wiedzieć, w jaki sposób używać węzłów modelowania opartych na środowiskach Python/Spark, a korzystanie z graficznego interfejsu umożliwi korzystanie z tych metod bez konieczności nauki języka Python. Efektem udziału w szkoleniu będzie zdobycie umiejętności doboru do celu analizy odpowiedniego algorytmu z palety Python/Spark oraz wskazania i oceny różnic w działaniu każdego z nich. Kurs będzie obejmował także wdrażanie modeli do procesów analitycznych oraz wprowadzenie do rozszerzonej parametryzacji algorytmów opierając się o integrację środowisk PS CLEMENTINE PRO i Python for Spark.
Czas trwania
- Szkolenie trwa 16 godzin lekcyjnych (2 dni po 8 godzin)
Program zajęć
- Teoretyczne zapoznanie z technikami grupowania,
- Analiza skupień metodą k-średnich,
- Elastyczna grupowanie, czyli mieszanina rozkładów Gaussa,
- Grupowanie oparte o gęstość przy pomocy HDBSCAN,
- Wyszukiwanie anomalii w zbiorze danych z użyciem SVM z jedną klasą,
- Teoretyczne wprowadzenie do algorytmów drzew decyzyjnych,
- Budowa drzew decyzyjnych,
- Łączenie klasyfikatorów w zespoły, czyli Lasy Losowe,
- Podnoszenie efektywności modelu za pomocą Drzewa XGBoost,
- Porównanie różnych algorytmów drzew decyzyjnych,
- Budowanie własnego modelu z wykorzystaniem rozszerzeń Python/Spark.
Szkolenia na zamówienie
Szkolenie może zostać zrealizowane także na indywidualnie zamówienie – zdalnie lub w siedzibie Klienta.
Jego program może zostać dostosowany do indywidualnych potrzeb.
Polecane kursy uzupełniające
Dla zainteresowanych eksploracją poprawą jakości i wykrywania nieprawidłowości w danych do modelowania: DM 3. Eksploracja danych z wykorzystaniem indukcji reguł asocjacyjnych, automatycznej budowy modeli
Dla zainteresowanych predykcją opartą o klasyczne techniki regresji: DM 3a. Predykcja z wykorzystaniem technik regresji liniowej i regresji logistycznej
Dla zainteresowanych predykcją opartą o drzewa decyzyjne i sieci neuronowe: DM 3b. Predykcja z wykorzystaniem sieci neuronowych i drzew decyzyjnych
Dla zainteresowanych technikami wielowymiarowymi wykorzystywanymi do grupowania: DM 3c. Grupowanie z wykorzystaniem k-średnich, sieci Kohonena i dwustopniowego grupowania
Dla zainteresowanych technikami prognozowania zjawisk w czasie: DM 3d. Prognozowanie z wykorzystaniem analizy szeregów czasowych
Informacje dodatkowe
Profil uczestnika
Szkolenie adresowane jest do osób, które znają podstawy technik klasyfikacyjnych oraz grupujących, ale chcą je usprawniać, korzystając z szerszego zakresu nowoczesnych metod data mining lub data science.
Wykorzystane oprogramowanie
PS CLEMENTINE PRO / IBM SPSS Modeler
Umiejętności zdobywane podczas kursu
- Wykorzystanie środowisk Apache Spark i scikit-learn zintegrowanych w ramach PS CLEMENTINE PRO,
- Podstawy teoretyczne z zakresu technik budowy modeli klasyfikacyjnych oraz grupujących,
- Umiejętność budowania modeli klasyfikacyjnych, takich jak: drzewa decyzyjne, lasy losowe, Drzewo XGBoost,
- Umiejętność budowania modeli grupujących, takich jak: algorytm k-średnich, mieszanina rozkładów Gaussa, HDBSCAN,
- Obsługa węzłów umożliwiających wykorzystanie algorytmów bez konieczności pisania skryptów,
- Praktyczne wykorzystanie algorytmów w określonych obszarach,
- Wdrożenie modeli w procesy produkcyjne.