Clasificarea data mining este un pas în procesul de data mining. Este folosit pentru a grupa articole pe baza anumitor caracteristici cheie. Există mai multe tehnici utilizate pentru clasificarea data mining, inclusiv clasificarea celui mai apropiat vecin, învățarea arborelui de decizie și mașinile vectoriale suport.
Exploatarea datelor este o metodă pe care o folosesc cercetătorii pentru a extrage modele din date. În general, un eșantion reprezentativ este ales din grupul de date și apoi manipulat și analizat pentru a găsi modele. Pe lângă clasificarea data mining, cercetătorii pot folosi, de asemenea, gruparea, regresia și învățarea regulilor pentru a analiza datele.
Există mai mulți algoritmi care pot fi utilizați în clasificarea data mining. Clasificarea celui mai apropiat vecin este unul dintre cei mai simpli algoritmi de clasificare de data mining. Se bazează pe un set de antrenament. Un set de antrenament este un set de date folosit pentru a antrena computerul să acorde atenție anumitor variabile. În clasificarea celui mai apropiat vecin, computerul clasifică pur și simplu toate datele ca parte a grupului care conține datele cele mai apropiate ca valoare de intrare.
Învățarea arborelui de decizie utilizează un model de ramificare pentru a clasifica datele. Calculatorul pune practic o serie de întrebări despre date. Dacă răspunsul la prima întrebare este adevărat, se pune întrebarea 2a. Dacă răspunsul este fals, se pune întrebarea 2b. Când este întinsă, această metodă formează un arbore de căi ramificate.
Clasificarea naiv Bayes se bazează pe probabilitate. Pune o serie de întrebări despre fiecare parte de date și apoi folosește răspunsurile pentru a determina probabilitatea ca datele să aparțină unei anumite clasificări. Acest lucru este diferit de învățarea arborelui de decizie deoarece răspunsul la prima întrebare nu influențează întrebarea care va fi adresată următoare.
Metodele mai complicate de clasificare a exploatării datelor includ rețelele neuronale și mașinile vectoriale suport. Aceste metode sunt modele bazate pe computer care ar fi dificil de realizat manual. Rețelele neuronale sunt adesea folosite în programarea inteligenței artificiale, deoarece imită creierul uman. Filtrează informațiile printr-o serie de noduri care găsesc tipare și apoi clasifică informațiile.
Mașinile de suport vector folosesc mostre de antrenament pentru a construi un model care va clasifica informațiile, de obicei vizualizate ca un grafic de dispersie cu un spațiu larg între categorii. Când informații noi sunt introduse în mașină, acestea sunt reprezentate pe grafic. Datele sunt apoi clasificate în funcție de categoria de care se încadrează cel mai aproape informația din grafic. Această metodă funcționează numai atunci când există două opțiuni din care să alegeți.