Ce este extragerea informațiilor?

Cunoscută uneori sub numele de regăsire a informațiilor, extragerea informațiilor (IE) este un proces care este utilizat cu sisteme informatice pentru a permite extragerea datelor relevante din corpuri mai mari de date, folosind un set de criterii predefinite. Ideea din spatele extragerii informațiilor este de a face posibilă identificarea și asimilarea cu ușurință a datelor care sunt relevante pentru o anumită activitate, fără a fi nevoie să parcurgeți manual cantități mari de informații pentru a găsi datele exacte necesare. Procesul este similar cu ideile de concept mining sau web scraping, prin faptul că toate aceste abordări caută să colecteze informații utile dintr-un bazin mai larg de date disponibile.

Abordarea generală a extragerii informațiilor necesită utilizarea programării care este capabilă să scaneze surse de informații care sunt considerate citibile de mașină. Acestea pot include documente pe hârtie care au fost scanate într-un fel de fișiere electronice, documente pregătite ca foi de calcul sau documente de procesare de text sau chiar datele conținute în câmpuri care pot fi citite dintr-o bază de date. În mod obișnuit, parametrii sunt stabiliți care fac posibil ca un program software să aibă acces la aceste surse de date și să le scaneze rapid folosind criterii specifice pentru a prioritiza și a extrage anumite tipuri de informații din pool-ul disponibil. Acest proces este în mod obișnuit diferit de un proces simplu de căutare, prin aceea că metoda cere să nu se potrivească anumite cuvinte sau expresii în sine, ci în schimb folosește un proces numit procesare a limbajului natural, care ajută nu numai la evaluarea cuvintelor reale, ci și a contextului și sensul implicat de acel context.

Complexitățile pe care le implică extragerea informațiilor fac ca utilizarea acestei abordări să fie oarecum dificil de gestionat la scară globală, deși există instrumente IE care funcționează foarte bine doar cu o cantitate limitată de date, cum ar fi sursele de date asociate fișierelor electronice găzduite pe serverul unei corporații sau chiar un grup de surse care implică un număr limitat de fluxuri de știri. Cu această abordare este posibilă identificarea unui tip de eveniment, eventual chiar limitarea randamentelor la includerea unui anumit număr de participanți la eveniment și aranjarea datelor în funcție de dată.

Ca și în cazul multor forme de tehnologie, instrumentele folosite pentru a se angaja în extragerea informațiilor sunt în continuă perfecționare. De la începutul secolului al XXI-lea, capacitatea de a seta parametri și de a utiliza corpuri din ce în ce mai mari de date electronice ca parte a căutării de informații relevante a crescut semnificativ. Aceasta include capacitatea de a trata volume mari de date nestructurate și de a utiliza acești parametri pentru a aduce o anumită ordine sau structură acestor date, făcându-le cu atât mai utile pentru căutările viitoare.