Text mining este procesul de utilizare a tehnologiei computerizate pentru a verifica documentele text în scopuri de cercetare și analiză. Este adesea considerat foarte asemănător cu procesul cunoscut sub numele de data mining, dar se bazează pe programare specială pentru a căuta în text necategorizat și pentru a găsi semnificație sau modele în loc să analizeze informațiile precategorisite ale bazei de date. Text mining are multe aplicații în domenii precum știința, marketingul și organizarea datelor.
Complexitatea implicată în organizarea cuvintelor în limbaj este mult prea extremă pentru ca computerele să le poată gestiona, dar oamenii de știință au muncit din greu pentru a îmbunătăți acest tip de programare. Au fost dezvoltate multe metode care le permit oamenilor de știință să identifice fraze și să descopere fapte despre text. În general, acest lucru nu este același lucru cu descifrarea completă a sensului, dar permite comenzi rapide care ating multe dintre aceleași obiective. Text mining profită de unele dintre aceste tehnici și, pe măsură ce această tehnologie se îmbunătățește, se așteaptă, în general, să se îmbunătățească și extragerea textului.
Experții folosesc analiza informațiilor text în primul rând pentru a face cercetări în documentele scrise. Cantități mari de date scrise pot fi greu de analizat din cauza cantității uriașe de timp necesar. Calculatoarele pot parcurge acest text mult mai repede, dar nu-l pot înțelege. Tehnicile de extragere a textului permit computerelor să găsească tendințe utile în text, prezentând datele într-un mod care poate dezvălui fapte noi sau permite experților să facă descoperiri.
Un exemplu de utilizare a acestei tehnologii ar fi cercetarea de piață. Experții ar putea analiza rezultatele căutării pentru un nume de produs și ar putea pune programul să caute expresii care exprimă sentimentul utilizatorului. În acest fel, ei pot afla cum simt oamenii cu adevărat despre produsul lor într-un mod foarte detaliat. De asemenea, ar putea să își caute pur și simplu produsul și să vadă ce fraze apar cel mai des, iar acest lucru i-ar putea ajuta să dezvolte idei noi despre cum să-și mulțumească clienții.
O altă utilizare a textului minat este analiza lucrărilor științifice pe subiecte similare în căutarea unor noi tendințe sau acorduri. Acest lucru a permis unor oameni de știință să facă ipoteze predictive care s-au dovedit utile în domenii precum analiza proteinelor. Unii experți cred că acest tip de aplicații pot oferi în cele din urmă descoperiri neașteptate.
Un proces numit data mining este de fapt destul de similar cu extragerea textului, dar este, în general, mai puțin complex de realizat, deoarece se bazează pe text care a fost deja formatat în categorii. De exemplu, software-ul ar putea parcurge toate informațiile pentru solicitanții de locuri de muncă dintr-o bază de date, căutând tendințe. Exploatarea textului este mai dificil de realizat de computere, deoarece textul pur este mai greu de analizat decât datele cu categorii.