Un web crawler este un program automat sau script relativ simplu care scanează sau „crawlerează” în mod metodic paginile de Internet pentru a crea un index al datelor pe care le caută; aceste programe sunt de obicei făcute pentru a fi utilizate o singură dată, dar pot fi programate și pentru utilizare pe termen lung. Există mai multe utilizări pentru program, poate cele mai populare fiind motoarele de căutare care îl folosesc pentru a oferi navigatorilor site-uri relevante. Alți utilizatori includ lingviști și cercetători de piață sau oricine încearcă să caute informații de pe Internet într-un mod organizat. Numele alternative pentru un crawler web includ păianjen web, robot web, bot, crawler și indexator automat. Programele crawler pot fi achiziționate de pe Internet sau de la multe companii care vând software pentru computer, iar programele pot fi descărcate pe majoritatea computerelor.
Utilizări comune
Există diverse utilizări pentru crawlerele web, dar, în esență, un crawler web poate fi folosit de oricine dorește să colecteze informații de pe Internet. Motoarele de căutare folosesc frecvent crawlerele web pentru a colecta informații despre ceea ce este disponibil pe paginile web publice. Scopul lor principal este de a colecta date, astfel încât atunci când internauții introduc un termen de căutare pe site-ul lor, să poată oferi rapid navigatorului site-uri web relevante. Lingviștii pot folosi un crawler web pentru a efectua o analiză textuală; adică pot pieptăna Internetul pentru a determina ce cuvinte sunt folosite în mod obișnuit astăzi. Cercetătorii de piață pot folosi un crawler web pentru a determina și a evalua tendințele pe o anumită piață.
Crawling-ul web este o metodă importantă pentru colectarea de date și pentru a ține pasul cu Internetul în expansiune rapidă. Un număr mare de pagini web sunt adăugate în mod continuu în fiecare zi, iar informațiile sunt în continuă schimbare. Un crawler web este o modalitate prin care motoarele de căutare și alți utilizatori se asigură în mod regulat că bazele lor de date sunt actualizate. Există numeroase utilizări ilegale ale crawlerelor web, cum ar fi piratarea unui server pentru mai multe informații decât se oferă gratuit.
Un Abonament Convenabil
Când un crawler web al unui motor de căutare vizitează o pagină web, acesta „citește” textul vizibil, hyperlinkurile și conținutul diferitelor etichete utilizate pe site, cum ar fi metaetichetele bogate în cuvinte cheie. Folosind informațiile culese de la crawler, un motor de căutare va determina apoi despre ce este vorba despre site și va indexa informațiile. Site-ul web este apoi inclus în baza de date a motorului de căutare și în procesul său de clasare a paginilor.
Crawlerele web pot funcționa o singură dată, de exemplu pentru un anumit proiect unic. Dacă scopul său este pentru ceva pe termen lung, așa cum este cazul motoarele de căutare, crawlerele web pot fi programate să parcurgă periodic internetul pentru a determina dacă au existat modificări semnificative. Dacă un site se confruntă cu trafic intens sau dificultăți tehnice, păianjenul poate fi programat să noteze acest lucru și să revină din nou site-ul, sperăm după ce problemele tehnice s-au atenuat.