Ce este Sequence Mining?

Sequence mining este un tip de data mining structurat în care baza de date și administratorul caută secvențe sau tendințe în date. Acest data mining este împărțit în două domenii. Exploatarea secvenței itemset este de obicei folosită în marketing, iar mineritul secvenței șirurilor este folosită în cercetarea în biologie. Exploatarea secvenței este diferită de extragerea curentă obișnuită, deoarece datele sunt mai specifice, ceea ce face dificilă construirea unei baze de date eficiente pentru proiectanții de baze de date și, uneori, poate merge prost dacă secvența este diferită de secvența obișnuită.

La un moment dat sau altul, toate bazele de date sunt folosite pentru a extrage date. Acest minerit ajută companiile și părțile de cercetare să găsească ceva de care au nevoie. De obicei, ei caută un fel de tendință, dar care este această tendință și cât de specifice sunt informațiile vor depinde de designul bazei de date. În mineritul de secvențe, baza de date este construită pentru a găsi secvențe foarte specifice, cu puține sau deloc variații. Aceasta este o formă unică de extragere a datelor structurate în care baza de date caută prin datele structurate asemănări.

Exploatarea secvenței poate fi împărțită în două categorii. Itemset mining este folosit în marketing și afaceri pentru a găsi tendințe specifice în numărul de vânzări, tipurile de produse, plasarea produselor într-un magazin și utilizarea unui produs. Aceste cifre sunt luate și aplicate algoritmilor de marketing pentru a ajuta la elaborarea strategiei unui proiect de marketing și pentru a susține vânzările. Informațiile despre un produs și modul în care se desfășoară sunt preluate în mod obișnuit din baza de date, dar aspectul definitoriu al extragerii secvenței setului de articole este că secvența este preluată din celulele bazei de date cu mai multe simboluri.

Miningul cu șiruri este opusul extragerii elementelor, deoarece privește fiecare simbol în mod individual, mai degrabă decât ca un cluster. În mineritul șir, baza de date ar putea fi setată pentru a găsi o secvență dintr-o sursă de proteine ​​sau mostre de gene. Acest lucru ajută la compararea multor mostre de gene pentru a vedea dacă sunt aceleași sau pentru a descompune secvențele mari și pentru a afla ce secvențe conțin. În mare parte echipele de cercetare biologică și medicală folosesc acest lucru.

Crearea unei baze de date pentru minarea secvențelor poate fi dificilă deoarece, spre deosebire de minarea de tendințe și alte extrageri de date structurate, secvențele trebuie să se potrivească în mod specific între ele. Acest lucru duce, de asemenea, la problema minării pentru secvențe. Dacă secvența este diferită, nu va fi recunoscută, ceea ce ar putea face extragerea setului de articole mai dificilă. Exploatarea cu corzi beneficiază de obicei de pe urma acestui lucru, deoarece cea mai mică diferență într-o probă de țesut ar putea face organismul – sau orice altceva cercetează echipa de cercetare – complet diferit de alte mostre.