Mówiąc o analizie danych, mamy zazwyczaj na myśli dane zorganizowane w układzie wierszowo-kolumnowym, nadające się do klasycznych analiz statystycznych lub Data Mining. Wiemy też, że zawężając się do nich, dużo tracimy, bo wiele cennych informacji ukrytych jest w danych tekstowych. Danych, które są wszechobecne i występują w postaci pól tekstowych w repozytoriach oraz w plikach o różnych formatach. W takiej formie może być zapisana korespondencja mailowa, artykuły, komentarze pod nimi, posty na forach internetowych, oficjalne dokumenty firmowe itp. Lista potencjalnych źródeł danych tekstowych jest bardzo długa. Także wolumen tego typu danych często jest ogromny. WIĘCEJ
Wychodząc poza analizę rozkładów i statystki opisowej pojedynczych zmiennych, zazwyczaj zaczynamy interesować się badaniem korelacji pomiędzy zmiennymi. Używamy do tego celu różnych miar sił związku, dobranych w zależności od typu danych i ich poziomu pomiaru. Obok orzekania o sile korelacji pomiędzy zmiennymi interesuje nas także charakter tej zależności. Dobór narzędzi analitycznych będzie wyglądał inaczej w przypadku zmiennych reprezentowanych na poziomie ilorazowym i interwałowym, a inaczej tych reprezentowanych na poziomie nominalnym i porządkowym. W tym drugim przypadku najprostszą formą badania relacji pomiędzy dwiema zmiennymi są tabele krzyżowe. Na nich skoncentrujmy nasze rozważania. WIĘCEJ