Ce este Structure Mining?

Structure mining este un tip de data mining în care o sursă de date semistructurată este scanată, iar elementele structurii sale sunt descoperite și evidențiate. O sursă de date semi-structurată este una care nu utilizează structura tradițională a bazei de date a tabelelor, dar are un element semantic care separă informațiile prin etichete și markeri. Exploatarea structurii poate fi folosită pentru a extrage baze de date, site-uri web și multe alte forme de informații computerizate pentru a descoperi elemente ale structurii. Ajută utilizatorii să înțeleagă modul în care piesele interacționează între ele sau cum să găsească informații sub anumite etichete. Acest mining poate fi folosit și pentru a prezice ce este un articol, pe baza regulilor scrise de utilizator.

Există multe tipuri diferite de data mining și majoritatea sunt preocupați de extragerea unei surse structurate în mod tradițional. Aceasta include orice sursă care utilizează tabelele și nodurile tipice majorității bazelor de date. În mineritul structurilor, sunt utilizate numai date semistructurate. În acest caz, datele sunt de pe site-uri web sau simple baze de date care au o structură, dar nu una care este conformă cu regulile tradiționale ale bazelor de date. Datele au nevoie de etichete sau marcatoare care să deosebească fiecare articol pentru a fi extrase corespunzător.

Citind setul de date semi-structurate, mineritul structurii poate descoperi modul în care structura interacționează. De exemplu, fiecare site web are un model de navigare, iar acest model determină modul în care interacționează paginile. Prin minarea structurii, utilizatorul poate descoperi cum funcționează această navigare, ceea ce poate ajuta la crearea unei scheme de navigare similare.

Exploatarea structurii poate fi folosită și pentru a găsi elemente prin scrierea regulilor în programul de minerit. De exemplu, dacă există un set de date de carte, utilizatorul poate scrie o regulă conform căreia orice cărți fără index ar trebui să revină ca ficțiune, iar cele cu un index să revină ca non-ficțiune. Majoritatea cărților de ficțiune nu au un index, așa că această regulă va prezice cu mare acuratețe care sunt datele. Acest lucru ajută utilizatorii atunci când se uită la un set semi-structurat care are o metodă organizatorică, dar nu una care se potrivește cu ceea ce caută utilizatorul.

După ce a descoperit structura unității semi-structurate, utilizatorul o va compara de obicei cu o altă unitate semi-structurată. Dacă utilizatorul are un site web de afaceri, el sau ea poate extrage un alt site web de afaceri pentru navigare și linkuri și să vadă cum se aseamănă site-ul său. Prin compararea informațiilor extrase, utilizatorul poate găsi modalități de a crește eficiența structurii.