Diagram zadania – nowe możliwości tworzenia i wizualizacji procesów w PS CLEMENTINE PRO
Tworzenie i zarządzanie zadaniami analitycznymi to ważna część pracy z narzędziami typu ETL (ang. Extract, Transform and Load, czyli wyodrębnianie, przekształcanie i ładowanie) oraz programami do zaawansowanej analizy danych.
Przeczytaj więcejIndukcja reguł sekwencyjnych
Indukcja reguł sekwencyjnych to zaawansowana technika eksploracji danych, która umożliwia odkrywanie wzorców występujących w sekwencjach zdarzeń.
Przeczytaj więcejAnaliza koszykowa: Zastosowanie i charakterystyka
Analiza koszykowa to popularna technika eksploracji danych, wykorzystywana przede wszystkim pod kątem zawartości koszyków zakupowych w handlu detalicznym, marketingu oraz e-commerce.
Przeczytaj więcejAlgorytmy indukcji reguł – odkrywanie wzorców w danych
Indukcja reguł jest jedną z kluczowych metod w dziedzinie sztucznej inteligencji i uczenia maszynowego. Umożliwia automatyczne wyodrębnianie wzorców i zależności z danych. Ta technika polega na analizie zbiorów danych w celu sformułowania ogólnych reguł, które opisują relacje pomiędzy zmiennymi w z…
Przeczytaj więcejAuto Klasyfikacja – automatyczny wybór modelu do danych w PS CLEMENTINE PRO
Podczas pracy z danymi analityk często staje przed wyzwaniem wyboru odpowiednich testów statystycznych, które pozwolą uzyskać wartościowe odpowiedzi na postawione pytania badawcze. Rozwiązaniem tego problemu może być PS CLEMENTINE PRO. Narzędzie to oferuje szeroką gamę metod modelowania, które opie…
Przeczytaj więcejAutomatyczne przygotowywanie danych do analizy, cz. II
Przygotowanie danych do analizy, jak już wielokrotnie było powtarzane na tym blogu, jest kluczowym elementem analizy. Często jest to proces czasochłonny oraz trudny, który nawet doświadczonym analitykom danych może sprawiać problemy. W tym artykule wracamy do kwestii automatycznego przygotowania d…
Przeczytaj więcejAutomatyczne przygotowywanie danych do analizy
Przygotowanie danych odgrywa kluczową rolę w analizie danych i procesach uczenia maszynowego. Jego znaczenie wynika z kilku ważnych aspektów, które wpływają na jakość i wiarygodność wyników. Dane o wysokiej jakości mają wpływ na dokładniejsze i bardziej wiarygodne modele statystyczne. Surowe, niepr…
Przeczytaj więcejWspółczynnik determinacji R²: co to jest i jak go interpretować?
Współczynnik determinacji, oznaczany jako R² (R-kwadrat), jest jednym z najczęściej używanych narzędzi statystycznych do oceny modelu. Oferuje on miarę tego, jak dobrze testowany model dopasowuje się do danych. W tym artykule przyjrzymy się, czym dokładnie jest współczynnik R² i jaką rolę odgrywa w…
Przeczytaj więcejMediana
Mediana jest statystyką, którą zaliczamy do miar tendencji centralnych. Jest jedną z najpopularniejszych statystyk opisowych obok średniej arytmetycznej. Dla młodych adeptów sztuki analitycznej jest to statystyka, z którą zapoznają się jako jedną z pierwszych. Warto dodać, że oprócz prostej interpr…
Przeczytaj więcejPredykcyjne AI vs generatywne AI – charakterystyka, różnice
Sztuczna inteligencja (ang. artificial intelligence, AI) to jedno z najbardziej ekscytujących i dynamicznie rozwijających się obszarów technologii współczesnego świata. Od samouczących się algorytmów, przez zaawansowane systemy rozpoznawania obrazów, aż po autonomiczne pojazdy – AI rewolucjonizuje …
Przeczytaj więcejWykres kołowy
Nie wiem czy wiecie, ale w 2021 roku „poczciwy” wykres kołowy obchodził 220. urodziny. Przez te lata stał się jednym z najbardziej rozpoznawalnych narzędzi w analizie danych. Wykorzystywany jest w różnych dziedzinach, od marketingu po nauki przyrodnicze, pomagając w prosty sposób przedstawiać skomp…
Przeczytaj więcejTesty parametryczne a nieparametryczne. Jaki test wybrać do analizy?
Analiza statystyczna jest nieodłącznym elementem badań naukowych i pracy z danymi. Aby wyciągnąć prawidłowe wnioski, niezbędne jest zastosowanie odpowiednich testów statystycznych. Analityk często staje przed wyborem, który test w danej sytuacji wybrać. Jest to ważne, ponieważ niewłaściwe dobranie …
Przeczytaj więcejMetaanaliza jako narzędzie analityczne
W dzisiejszym świecie naukowym i badawczym analitycy często napotykają problem analizy dużych ilości danych, pochodzących z różnych badań. W takich sytuacjach metaanaliza staje się niezastąpionym narzędziem. Umożliwia zbiorczą ocenę wyników wielu badań i wyciąganie bardziej precyzyjnych wniosków. W…
Przeczytaj więcejOgólne modele liniowe i uogólnione modele liniowe - różnice oraz podobieństwa
W analizie danych, stosowanie ogólnych modeli liniowych jest powszechne ze względu na ich prostotę i łatwość w interpretacji uzyskanych wyników. Jednakże zdarza się, że analityk napotyka sytuacje, w których założenia klasycznych modeli liniowych są trudne lub niemożliwe do spełnienia. Może to wynik…
Przeczytaj więcejWnioskowanie bayesowskie
Wnioskowanie bayesowskie to metoda wnioskowania statystycznego. Została tak nazwana na cześć Thomasa Bayesa, brytyjskiego matematyka i pastora, który po raz pierwszy sformułował teorię prawdopodobieństwa bayesowskiego w XVIII wieku. To metoda analizy danych, która pozwala na określenie prawdopodobi…
Przeczytaj więcejBraki danych w ilościowej analizie danych – czym są i jak sobie z nimi radzić?
Braki w kontekście analizy danych oznaczają sytuacje, gdy w zbiorze danych nie ma wartości dla niektórych zmiennych lub obserwacji. Innymi słowy, są to miejsca, w których oczekiwano liczby, tekstu, czy innej formy danych, ale z różnych przyczyn się tam nie znalazły. Braki danych mogą mieć różne for…
Przeczytaj więcejPiramida populacyjna
Poszukując najlepszej metody wizualizacji posiadanych danych, natrafić można na imponująco szeroką paletę różnego rodzaju wykresów – od prostych, podstawowych takich jak wykres rozrzutu, do bardzo zaawansowanych jak diagram Sankeya. Niektóre z nich zostały jednak stworzone z myślą o specyficznym ro…
Przeczytaj więcejReguła trzech sigm
Reguła trzech sigm jest ważnym narzędziem w statystyce i zarządzaniu jakością. W kontekście analizy danych, pozwala na identyfikację punktów odstających, które znacznie różnią się od reszty danych. Wykorzystanie reguły trzech sigm w kontroli jakości pozwala również na ujawnienie anomalii, co umożli…
Przeczytaj więcejSegmentacja: od grupowania do klasyfikacji
Segmentacja jest kluczowym procesem w analizie danych, polegającym na podziale zbioru danych na stosunkowo jednorodne grupy na podstawie określonych kryteriów. Celem segmentacji jest identyfikacja ukrytych wzorców, różnic i podobieństw między obiektami w zbiorze danych, co umożliwia bardziej precyz…
Przeczytaj więcejRekodowanie zmiennych ilościowych na jakościowe – techniki i ich praktyczne zastosowanie
Analizując dane bierzemy pod uwagę zarówno informacje ilościowe (takie jak wynagrodzenie, wiek, liczba zamówionych produktów), jak i jakościowe (np. płeć, wykształcenie, poziom zadowolenia z obsługi). Aby ułatwić pracę z danymi lub dostosować je do konkretnej analizy statystycznej, niekiedy dane li…
Przeczytaj więcejWartość odstająca czy anomalia? Wykrywanie obserwacji nietypowych
Czy jedno nietypowe zdarzenie może niepokoić? Na podstawie jednego odstępstwa od normy może zapalić się czerwona lampka? Oczywiście! W wielu branżach i biznesach anomalia to znak, na który trzeba reagować szybko i sprawnie, aby zapobiec konsekwencjom. Jak więc rozpoznać anomalię i jak nie pomylić c…
Przeczytaj więcejWnioskowanie statystyczne
Wnioskowanie statystyczne jest działem statystyki, dzięki któremu możliwe staje się opisywanie, analizowanie i wnioskowanie na temat całej populacji na podstawie badanej próby.
Przeczytaj więcejPrzypadki odstające. Identyfikacja i znaczenie w analizie danych
W analizie danych istotne jest rozpoznanie nietypowych obserwacji, które znacząco różnią się od pozostałych. Takie wartości, nazywane wartościami lub przypadkami odstającymi, mogą wpływać na wyniki analizy statystycznej i prowadzić do błędnych wniosków. W tym materiale przyjrzymy się czym są przypa…
Przeczytaj więcejPoziomy pomiaru
Poziom pomiaru jest jedną z najważniejszych własności zmiennych. Warunkuje on, jakie testy statystyczne będą później w toku analizy dla badacza dostępne. Jakie jednak informacje konkretnie nam przekazuje? Poziom pomiaru to wzorzec dokonywania pomiaru, który umożliwia określenie i ocenę stopnia lub …
Przeczytaj więcejTest zgodności chi-kwadrat Pearsona
Do grona popularnych testów statystycznych można zaliczyć testy chi-kwadrat Pearsona. Warto na początku zwrócić uwagę, że test ten ma więcej niż jedno zastosowanie. W tym materiale omówię najważniejsze różnice między testami oraz przybliżę najważniejsze zagadnienia związane z testem zgodności chi-k…
Przeczytaj więcejEntropia
Entropia jest miarą nieuporządkowania lub niepewności w rozkładzie prawdopodobieństwa. Pojęcie to zostało po raz pierwszy przedstawione w 1854 roku przez fizyka Rudolfa Clausiusa, zajmującego się zagadnieniami termodynamiki i w tym znaczeniu definicja entropii odnosi się (w dużym skrócie) do przebi…
Przeczytaj więcejSieci neuronowe
Sieci neuronowe to rodzina algorytmów ciesząca się coraz większą popularnością w zadaniach z obszaru predykcji, klasyfikacji czy grupowania.
Przeczytaj więcejRegresja logistyczna
Regresja służy do przewidywania wartości zmiennej zależnej (przewidywanej) na podstawie wartości zmiennej lub zmiennych niezależnych (predyktorów).
Przeczytaj więcejSkośność i kurtoza
Kurtoza i skośność to miary asymetrii opisujące takie własności jak kształt i asymetria analizowanego rozkładu. Dostarczają nam informacji, w jaki sposób wartości zmiennych odchylają się porównując do wartości średniej.
Przeczytaj więcejKwantyle, kwartyle, percentyle (miary położenia)
Kwantyle wykorzystujemy do określenia pozycji danej wartości na tle innych w grupie lub populacji. Powiedzmy, że otrzymaliśmy wyniki egzaminów maturalnych z matematyki. Chcesz dowiedzieć się czy twój wynik jest wysoki w porównaniu do wyników pozostałych osób piszących maturę w tym samym roku, czy m…
Przeczytaj więcejTest niezależności chi-kwadrat Pearsona
Test niezależności chi-kwadrat jest jednym najpopularniejszych testów statystycznych. Stosuje się go w celu sprawdzenia, czy między dwiema zmiennymi jakościowymi występuje istotna statystycznie zależność.
Przeczytaj więcejTesty t Studenta
Grupa testów t Studenta służy do porównania ze sobą dwóch grup wyników, zmierzonych za pomocą średniej arytmetycznej.
Przeczytaj więcejOd wariancji do metody najmniejszych kwadratów (MNK)
Średnia jest jedną z najbardziej popularnych i najczęściej stosowanych miar statystycznych. Sama w sobie nie jest wyczerpującym wskaźnikiem i pozwala jedynie na określenie tendencji centralnej analizowanej zmiennej.
Przeczytaj więcejMoc testu
Moc testu to prawdopodobieństwo wykrycia istotnego statystycznie efektu, gdy faktycznie taki w badanej populacji występuje.
Przeczytaj więcejCustomer Satisfaction Index (CSI)
Customer Satisfaction Index (CSI), czyli wskaźnik satysfakcji konsumenta, jest metodą wykorzystywaną w marketingu do oceny zadowolenia klienta z produktów lub usług dostarczanych przez firmę.
Przeczytaj więcej