Ce este Statistical Data Mining?

Exploatarea datelor statistice, cunoscută și sub numele de cunoaștere sau descoperire de date, este o metodă computerizată de colectare și analiză a informațiilor. Instrumentul de extragere a datelor preia date și clasifică informațiile pentru a descoperi modele sau corelații care pot fi utilizate în aplicații importante, cum ar fi medicina, programarea computerelor, promovarea afacerilor și designul robotizat. Tehnicile de extragere a datelor statistice folosesc matematică complexă și procese statistice complicate pentru a crea o analiză.

Exploatarea datelor implică cinci pași majori. Prima aplicație de data mining colectează date statistice și plasează informațiile într-un program de tip depozit. În continuare, datele din depozit sunt organizate și creează un sistem de management. Următorul pas creează o modalitate de a accesa datele gestionate. Apoi, al patrulea pas dezvoltă software pentru analiza datelor, cunoscut și sub numele de regresie data mining, în timp ce pasul final facilitează utilizarea sau interpretarea datelor statistice într-un mod practic.

În general, tehnicile de extragere a datelor integrează sisteme de date analitice și tranzacționale. Software-ul analitic sortează ambele tipuri de sisteme de date folosind întrebări deschise ale utilizatorului. Întrebările deschise permit nenumărate răspunsuri, astfel încât programatorii să nu influențeze rezultatele sortării. Programatorii creează liste de întrebări pentru a ajuta la clasificarea informațiilor folosind o atenție generală.

Sortarea se bazează apoi pe dezvoltarea de clase și grupuri de date, asocieri găsite în date și încercări de a defini modele și tendințe bazate pe asocieri. De exemplu, Google colectează informații despre obiceiurile de cumpărare ale utilizatorilor pentru a ajuta la plasarea de reclame online. Întrebările deschise folosite pentru a sorta aceste date despre cumpărător se concentrează pe preferințele de cumpărare sau obiceiurile de vizualizare ale utilizatorilor de internet.
Informaticii și programatorii se concentrează pe analiza datelor statistice care sunt colectate. Crearea de arbori de decizie, rețele neuronale artificiale, metoda celui mai apropiat vecin, inducerea regulilor, vizualizarea datelor și algoritmi genetici folosesc toate datele extrase statistic. Aceste sisteme de clasificare ajută la interpretarea asociilor descoperite de programele de date analitice. Exploatarea statistică a datelor implică proiecte mici care pot fi realizate la scară mică pe un computer de acasă, dar cele mai multe seturi de asociații de extragere a datelor sunt atât de mari, iar regresia extragerii de date atât de complicată încât necesită un supercomputer sau o rețea de calculatoare de mare viteză.
Exploatarea datelor statistice colectează trei tipuri generale de date, inclusiv date operaționale, date neoperaționale și metadate. Într-un magazin de îmbrăcăminte, datele operaționale sunt date de bază utilizate pentru a conduce afacerea, cum ar fi contabilitatea, vânzările și controlul stocurilor. Datele neoperaționale, care au legătură indirectă cu afacerea, includ estimări ale vânzărilor viitoare și informații generale despre piața națională de îmbrăcăminte. Metadatele se referă la datele în sine. Un program care utilizează metadate ar putea sorta clienții magazinului în clasificări bazate pe gen sau locația geografică a cumpărătorilor de îmbrăcăminte sau culoarea preferată a clienților, dacă datele respective au fost colectate.
O aplicație de extragere a datelor poate fi extrem de sofisticată, iar instrumentul de extragere a datelor statistice poate avea aplicații practice pe scară largă. Studiul focarelor de boală este un exemplu. Un proiect de extragere a datelor din 2000 a analizat focarul de boală a criptosporidiumului din Ontario, Canada, pentru a determina cauzele creșterii cazurilor de boală. Rezultatele extragerii de date au ajutat la legarea focarului de bacterii cu condițiile locale ale apei și cu lipsa tratării adecvate a apei municipale. Un domeniu numit „biosupraveghere” folosește extragerea datelor epidemiologice pentru a identifica focarele unei singure boli.
Programatorii și designerii de computere folosesc, de asemenea, studiul probabilității și analiza datelor statistice pentru a dezvolta mașini și programe de calculator. Motorul de căutare Google pe Internet a fost conceput utilizând extragerea datelor statistice. Google continuă să colecteze și să utilizeze data mining pentru a crea actualizări de program și aplicații.