Co to jest eksploracja danych statystycznych?

Statystyczna eksploracja danych, znana również jako wiedza lub odkrywanie danych, to skomputeryzowana metoda zbierania i analizowania informacji. Narzędzie do eksploracji danych pobiera dane i kategoryzuje je, aby odkryć wzorce lub korelacje, które można wykorzystać w ważnych aplikacjach, takich jak medycyna, programowanie komputerowe, promocja biznesu i projektowanie robotów. Techniki eksploracji danych statystycznych wykorzystują złożoną matematykę i skomplikowane procesy statystyczne do tworzenia analiz.

Eksploracja danych obejmuje pięć głównych kroków. Pierwsza aplikacja do eksploracji danych zbiera dane statystyczne i umieszcza je w programie typu hurtowni. Następnie dane w hurtowni są porządkowane i tworzą system zarządzania. Następny krok tworzy sposób na dostęp do zarządzanych danych. Następnie w czwartym kroku rozwijane jest oprogramowanie do analizy danych, zwane również regresją eksploracji danych, podczas gdy ostatni krok ułatwia praktyczne wykorzystanie lub interpretację danych statystycznych.

Ogólnie rzecz biorąc, techniki eksploracji danych integrują systemy danych analitycznych i transakcyjnych. Oprogramowanie analityczne sortuje oba typy systemów danych za pomocą otwartych pytań użytkownika. Pytania otwarte pozwalają na niezliczone odpowiedzi, więc programiści nie mają wpływu na wyniki sortowania. Programiści tworzą listy pytań, aby pomóc w kategoryzowaniu informacji przy użyciu ogólnego skupienia.

Sortowanie opiera się wówczas na opracowywaniu klas i klastrów danych, asocjacjach znalezionych w danych oraz próbach zdefiniowania wzorców i trendów w oparciu o asocjacje. Na przykład Google zbiera informacje o zwyczajach zakupowych użytkowników, aby pomóc w umieszczaniu reklam online. Pytania otwarte służące do sortowania danych o kupujących skupiają się na preferencjach zakupowych lub zwyczajach przeglądania internautów.
Informatycy i programiści skupiają się na analizie gromadzonych danych statystycznych. Tworzenie drzew decyzyjnych, sztuczne sieci neuronowe, metoda najbliższego sąsiada, indukcja reguł, wizualizacja danych i algorytmy genetyczne wykorzystują dane statystyczne wydobywane. Te systemy klasyfikacji pomagają w interpretacji powiązań wykrytych przez programy danych analitycznych. Statystyczna eksploracja danych obejmuje małe projekty, które można wykonać na małą skalę na komputerze domowym, ale większość zestawów skojarzeń eksploracji danych jest tak duża, a regresja eksploracji danych tak skomplikowana, że ​​wymaga superkomputera lub sieci szybkich komputerów.
Statystyczna eksploracja danych zbiera trzy ogólne typy danych, w tym dane operacyjne, dane nieoperacyjne i metadane. W sklepie odzieżowym dane operacyjne to podstawowe dane wykorzystywane do prowadzenia działalności, takie jak księgowość, sprzedaż i kontrola zapasów. Dane nieoperacyjne, pośrednio związane z prowadzoną działalnością, obejmują szacunki przyszłej sprzedaży oraz ogólne informacje o krajowym rynku odzieżowym. Metadane dotyczą samych danych. Program korzystający z metadanych może sortować klientów sklepu według klasyfikacji na podstawie płci lub lokalizacji geograficznej kupujących odzież lub ulubionego koloru klientów, jeśli te dane zostały zebrane.
Aplikacja do eksploracji danych może być niezwykle wyrafinowana, a narzędzie statystyczne do eksploracji danych może mieć szerokie zastosowanie praktyczne. Jednym z przykładów jest badanie epidemii chorób. W ramach projektu eksploracji danych z 2000 r. przeanalizowano wybuch epidemii kryptosporidium w Ontario w Kanadzie, aby określić przyczyny wzrostu zachorowań. Wyniki eksploracji danych pomogły w powiązaniu epidemii bakterii z lokalnymi warunkami wodnymi i brakiem odpowiedniego uzdatniania wody komunalnej. Dziedzina o nazwie „biosurveillance” wykorzystuje eksplorację danych epidemiologicznych w celu zidentyfikowania ognisk pojedynczej choroby.
Programiści i projektanci komputerowi wykorzystują również badanie prawdopodobieństwa i analizę danych statystycznych do opracowywania maszyn i programów komputerowych. Wyszukiwarka internetowa Google została zaprojektowana z wykorzystaniem statystycznej eksploracji danych. Google nadal gromadzi i wykorzystuje eksplorację danych do tworzenia aktualizacji programów i aplikacji.