Recoltarea web este procesul prin care software-ul specializat colectează date de pe Internet și le plasează în fișiere pentru un utilizator final. Îndeplinește o funcție similară, dar mai avansată decât sarcinile pe care le îndeplinește un motor de căutare. Cunoscută și sub denumirea de Web scraping, Web harvesting oferă utilizatorului acces automat la informații de pe Internet pe care motoarele de căutare nu le pot procesa deoarece poate funcționa în jurul codului HTML. Cele trei tipuri majore de recoltare Web sunt pentru conținutul Web, structură și utilizare.
Recoltarea conținutului web implică extragerea de informații prin extragerea datelor atât din rezultatele paginii de căutare, cât și dintr-o căutare mai profundă a conținutului ascuns în paginile Web. Aceste informații suplimentare sunt adesea ascunse de motoarele de căutare, deoarece sunt ascunse de codul HTML. Procesul scanează informații similare cu modul în care ar face ochii umani, eliminând caracterele care nu formează expresii semnificative pentru a extrage elemente utile.
În loc să caute conținut, colectarea structurii web colectează date despre modul în care informațiile sunt organizate în anumite zone ale Internetului. Datele colectate oferă feedback valoros din care se pot face îmbunătățiri în domenii precum organizarea și recuperarea informațiilor. Este o modalitate de a rafina însăși structura Web-ului.
Recoltarea utilizării web urmărește modelele generale de acces și utilizarea personalizată de către utilizatorii web. Prin analizarea utilizării web, recoltarea poate ajuta la clarificarea modului în care se comportă utilizatorii. Aceasta este o altă modalitate de a îmbunătăți funcționarea Web-ului, dar la nivel de utilizator final. Poate ajuta designerii să-și îmbunătățească interfețele cu utilizatorul site-urilor lor Web pentru o eficiență maximă. Procesul oferă, de asemenea, o perspectivă asupra tipurilor de informații pe care utilizatorii le caută și a modului în care le găsesc, dând astfel o idee despre cum ar trebui dezvoltat conținutul în viitor.
Prin colectarea datelor de text și imagini din fișiere și imagini HTML, recoltarea web poate efectua accesări cu crawlere web mai complexe, care aprofundează în fiecare document. De asemenea, analizează legăturile care indică acel conținut pentru a determina dacă informațiile au importanță și relevanță pe internet. Acest lucru oferă o imagine mai completă a modului în care informațiile se raportează și influențează restul Web-ului.
Companiile folosesc recoltarea web pentru o gamă largă de scopuri. Poate fi o modalitate eficientă de a colecta date pentru a fi analizate. Unele dintre cele mai comune seturi de date compilate sunt informații despre concurenți, liste cu diferite prețuri ale produselor și date financiare. Datele pot fi colectate și pentru a analiza comportamentul clienților.