Exploatarea datelor utilizează o cantitate relativ mare de putere de calcul care operează pe un set mare de date pentru a determina regularitățile și conexiunile dintre punctele de date. Algoritmii care folosesc tehnici din statistici, învățare automată și recunoaștere a modelelor sunt utilizați pentru a căuta automat baze de date mari. Exploatarea datelor este cunoscută și sub numele de Knowledge-Discovery în baze de date (KDD).
La fel ca termenul de inteligență artificială, data mining este un termen umbrelă care poate fi aplicat unui număr de activități diferite. În lumea corporativă, data mining-ul este folosit cel mai frecvent pentru a determina direcția tendințelor și pentru a prezice viitorul. Este folosit pentru a construi modele și sisteme de sprijinire a deciziilor care oferă oamenilor informații pe care le pot folosi. Exploatarea datelor joacă un rol de primă linie în lupta împotriva terorismului. Se presupune că a fost folosit pentru a determina liderul atacurilor din 9 septembrie.
Minerii de date sunt statisticieni care folosesc tehnici cu nume precum modele de vecinătate, grupare k-means, metoda holdout, validare încrucișată k-fold, metoda leave-one-out și așa mai departe. Tehnicile de regresie sunt folosite pentru a scădea modele irelevante, lăsând doar informații utile. Termenul bayesian este văzut frecvent în domeniu, referindu-se la o clasă de tehnici de inferență care prezic probabilitatea unor evenimente viitoare prin combinarea probabilităților anterioare și probabilităților bazate pe evenimente condiționate. Filtrarea spam-ului este, fără îndoială, o formă de extragere a datelor, care aduce automat mesaje relevante la suprafață dintr-o mare haotică de încercări de phishing și propuneri de Viagra.
Arborii de decizie sunt folosiți pentru a filtra munți de date. Într-un arbore de decizie, toate datele trec printr-un nod de intrare, unde se confruntă cu un filtru care separă datele în fluxuri în funcție de caracteristicile sale. De exemplu, este probabil ca datele despre comportamentul consumatorilor să fie filtrate pe baza factorilor demografici. Exploatarea datelor nu se referă în primul rând la grafice fanteziste și tehnici de vizualizare, dar le folosește pentru a arăta ceea ce a găsit. Se știe că putem absorbi mai multe informații statistice vizual decât verbal și acest format de prezentare poate fi foarte persuasiv și puternic dacă este folosit în contextul potrivit.
Pe măsură ce civilizația noastră devine din ce în ce mai saturată de date și senzorii sunt distribuiți în masă în mediile noastre locale, vom descoperi din neatenție lucruri care ar putea fi ratate la prima trecere. Exploatarea datelor ne va permite să corectăm aceste greșeli și să descoperim noi perspective bazate pe datele anterioare, oferindu-ne mai mult profit pentru stocarea datelor.