Klasyfikacja eksploracji danych jest jednym z kroków w procesie eksploracji danych. Służy do grupowania przedmiotów w oparciu o pewne kluczowe cechy. Istnieje kilka technik stosowanych do klasyfikacji eksploracji danych, w tym klasyfikacja najbliższych sąsiadów, uczenie drzew decyzyjnych i maszyny wektorów pomocniczych.
Eksploracja danych to metoda wykorzystywana przez badaczy do wyodrębniania wzorców z danych. Na ogół z puli danych wybierana jest reprezentatywna próbka, a następnie manipulowana i analizowana w celu znalezienia wzorców. Oprócz klasyfikacji eksploracji danych badacze mogą również wykorzystywać do analizy danych grupowanie, regresję i uczenie się reguł.
Istnieje kilka algorytmów, które można wykorzystać w klasyfikacji eksploracji danych. Klasyfikacja najbliższego sąsiada jest jednym z najprostszych algorytmów klasyfikacji eksploracji danych. Polega na zestawie treningowym. Zbiór uczący to zestaw danych służących do uczenia komputera zwracania uwagi na określone zmienne. W klasyfikacji najbliższego sąsiada komputer po prostu klasyfikuje wszystkie dane jako część grupy zawierającej dane najbliższe wartości wejściowej.
Nauka drzewa decyzyjnego wykorzystuje model rozgałęziania do klasyfikowania danych. Komputer w zasadzie zadaje serię pytań dotyczących danych. Jeśli odpowiedź na pierwsze pytanie jest prawdziwa, zadaje pytanie 2a. Jeśli odpowiedź jest fałszywa, zadaje pytanie 2b. Po rozciągnięciu ta metoda tworzy drzewo rozgałęzionych ścieżek.
Klasyfikacja naiwna Bayesa opiera się na prawdopodobieństwie. Zadaje serię pytań dotyczących każdej części danych, a następnie wykorzystuje odpowiedzi do określenia prawdopodobieństwa, że dane należą do określonej klasyfikacji. Różni się to od uczenia się drzewa decyzyjnego, ponieważ odpowiedź na pierwsze pytanie nie ma wpływu na to, które pytanie zostanie zadane w następnej kolejności.
Bardziej skomplikowane metody klasyfikacji eksploracji danych obejmują sieci neuronowe i maszyny wektorów nośnych. Metody te to modele komputerowe, które trudno byłoby wykonać ręcznie. Sieci neuronowe są często wykorzystywane w programowaniu sztucznej inteligencji, ponieważ naśladują ludzki mózg. Filtruje informacje przez szereg węzłów, które znajdują wzorce, a następnie klasyfikują informacje.
Maszyny wektorów nośnych wykorzystują próbki szkoleniowe do budowania modelu, który będzie klasyfikował informacje, zwykle wizualizowane jako wykres punktowy z dużą przestrzenią między kategoriami. Kiedy nowe informacje są wprowadzane do maszyny, są przedstawiane na wykresie. Dane są następnie klasyfikowane w oparciu o kategorię, do której informacje znajdują się najbliżej na wykresie. Ta metoda działa tylko wtedy, gdy są dwie opcje do wyboru.