Software-ul de extragere a datelor este un instrument folosit pentru a identifica modele în seturi mari de date. Această zonă a software-ului de calculator sa extins dramatic în ultimii ani, deoarece firmele caută modalități de a traduce volume mari de informații în informații utile pentru luarea deciziilor. Capacitatea de a identifica în mod clar cauza și efectul, modelele de comportament uman, tendințele și alte valori este esențială pentru gestionarea corectă a oricărei afaceri. Beneficiile software-ului de extragere a datelor sunt clare pentru majoritatea utilizatorilor, dar cum să obțineți informațiile dorite și cum funcționează exact procesul este puțin înțeles de comunitatea generală de afaceri.
Există trei aspecte ale software-ului de extragere a datelor care descriu procesul: conversia datelor brute, scripturile de programare miniere și interpretarea. Acest proces este cunoscut și sub numele de descoperire a cunoștințelor în baze de date (KDD) și este utilizat pentru a descrie toate aspectele extragerii de date, inclusiv structura datelor, metodele de accesare a datelor și arhitectura sistemului. Există o serie de companii care oferă software de extragere a datelor, iar o înțelegere solidă a conceptelor care conduc acest produs este esențială pentru utilizarea cu succes și adecvată a tehnologiei.
Prima cerință pentru utilizarea oricărui software de extragere a datelor este convertirea datelor brute într-un set de date țintă. De exemplu, datele brute sunt baza de date a tuturor vânzărilor procesate într-un interval de timp larg. Un set de date țintă conține numai date care îndeplinesc un anumit criteriu. Aceasta poate include tranzacții procesate într-un interval de timp specific. În specificațiile setului de date sunt incluse câmpurile individuale care sunt incluse. Aceasta poate include data tranzacției, metoda de plată, locația magazinului, descrierea produsului și numărul de articole achiziționate.
Odată ce specificațiile setului de date sunt determinate, atunci datele sunt curățate pentru a elimina excesul de informații, zgomotul sau fișierele de date incomplete. Acest proces necesită de obicei utilizarea abilităților de programare, tehnici de gestionare a datelor și o înțelegere generală a conceptelor de date primare existente. Un data mart sau un depozit de date este cel mai obișnuit instrument utilizat pentru a stoca tabelele de date într-un mod care poate fi accesat cu ușurință de către programul software de extragere a datelor.
Scripturile reale de programare pentru extragerea datelor pot fi personalizate sau programatorii pot utiliza scripturi standard incluse în pachetul software de extragere a datelor. Marea majoritate a programelor software de data mining folosesc analiza de regresie, logica fuzzy și algoritmi pentru a identifica modele specifice care îndeplinesc specificațiile utilizatorului. Interpretarea rezultatelor necesită intervenție umană, timp și abilități în statistică, recunoaștere a modelelor și abilități matematice aferente. Este important de reținut că programul poate returna doar opțiuni pe baza specificațiilor furnizate de utilizator. Specificațiile prost definite și calitatea scăzută a datelor vor avea un impact negativ asupra validității rezultatelor.