Text mining to proces wykorzystujący technologię komputerową do przesiewania dokumentów tekstowych do celów badawczych i analitycznych. Jest często uważany za bardzo podobny do procesu znanego jako eksploracja danych, ale opiera się na specjalnym programowaniu do wyszukiwania w nieskategoryzowanym tekście i znajdowania znaczenia lub wzorców zamiast analizowania wstępnie skategoryzowanych informacji z bazy danych. Eksploracja tekstu ma wiele zastosowań w dziedzinach takich jak nauka, marketing i organizacja danych.
Złożoność związana z porządkowaniem słów w język jest zbyt ekstremalna, aby komputery mogły sobie z nimi poradzić, ale naukowcy ciężko pracowali, aby ulepszyć ten rodzaj programowania. Opracowano wiele metod, które pozwalają naukowcom identyfikować frazy i odkrywać fakty dotyczące tekstu. Generalnie nie jest to równoznaczne z pełnym rozszyfrowaniem znaczenia, ale pozwala na skróty, które pozwalają osiągnąć wiele tych samych celów. Eksploracja tekstu korzysta z niektórych z tych technik, a wraz z poprawą tej technologii ogólnie oczekuje się, że eksploracja tekstu również ulegnie poprawie.
Eksperci wykorzystują analizę informacji tekstowych przede wszystkim do badania dokumentów pisanych. Duże ilości pisemnych danych mogą być trudne do przeanalizowania ze względu na ogromną ilość wymaganego czasu. Komputery mogą przejrzeć ten tekst znacznie szybciej, ale nie mogą go zrozumieć. Techniki eksploracji tekstu umożliwiają komputerom znajdowanie przydatnych trendów w tekście, prezentując dane w sposób, który może ujawnić nowe fakty lub umożliwić ekspertom dokonywanie odkryć.
Przykładem zastosowania tej technologii mogą być badania rynku. Eksperci mogliby analizować wyniki wyszukiwania dotyczące nazwy produktu i zlecić programowi wyszukanie fraz wyrażających nastroje użytkowników. W ten sposób mogą bardzo szczegółowo dowiedzieć się, co ludzie naprawdę myślą o swoim produkcie. Mogli też po prostu poszukać swojego produktu i zobaczyć, które frazy pojawiają się najczęściej, a to może pomóc im rozwinąć nowe pomysły na to, jak zadowolić swoich klientów.
Innym zastosowaniem eksploracji tekstu jest analiza artykułów naukowych na podobne tematy w poszukiwaniu nowych trendów lub porozumień. Umożliwiło to niektórym naukowcom poczynienie założeń predykcyjnych, które okazały się przydatne w dziedzinach takich jak analiza białek. Niektórzy eksperci uważają, że tego rodzaju aplikacje mogą w końcu zapewnić nieoczekiwane odkrycia.
Proces zwany eksploracją danych jest w rzeczywistości dość podobny do eksploracji tekstu, ale generalnie jest mniej skomplikowany, ponieważ opiera się na tekście, który został już sformatowany w kategorie. Na przykład oprogramowanie może przeszukiwać wszystkie informacje dla kandydatów do pracy w bazie danych, szukając trendów. Eksploracja tekstu jest trudniejsza dla komputerów, ponieważ czysty tekst jest trudniejszy do przeanalizowania niż dane z kategoriami.