Cum funcționează motoarele de căutare?

Motoarele de căutare sunt practic algoritmi de computer care ajută utilizatorii să găsească informațiile specifice pe care le caută. Cele diferite funcționează în moduri specifice diferite, dar toate folosesc aceleași principii de bază.

Primul lucru pe care trebuie să-l facă motoarele de căutare pentru a funcționa este să realizeze o bază de date locală, practic, pe Internet. Versiunile timpurii doar indexau cuvintele cheie și titlurile paginilor, dar cele contemporane indexau tot textul de pe fiecare pagină, precum și multe alte date despre relația acelei pagini cu alte pagini și, în unele cazuri, toate sau o parte din media disponibile si pe pagina. Motoarele de căutare trebuie să indexeze toate aceste informații, astfel încât să poată efectua căutări pe acestea în mod eficient, mai degrabă decât să fie nevoite să ruleze pe Internet de fiecare dată când este trimisă o interogare de căutare.

Motoarele de căutare creează aceste baze de date efectuând accesări periodice pe internet. Versiunile inițiale au solicitat adesea trimiterea de pagini pentru a le accesa cu crawlere, dar acum majoritatea paginilor sunt găsite urmărind link-uri din alte pagini. Ceea ce se numesc roboți sau păianjeni, programe de calculator construite pentru a indexa paginile, se deplasează de la o pagină la alta, înregistrează toate datele de pe pagină și urmăresc fiecare link către pagini noi. Diferitele motoare de căutare își reîmprospătează indexurile la intervale diferite, în funcție de câți păianjeni se târăsc în mod constant și cât de repede se târăsc acești păianjeni, unii care își fac drum prin Internet în fiecare zi sau două, iar alții facând doar o reîmprospătare periodică în fiecare săptămână sau lună.

Pe măsură ce păianjenul parcurge aceste pagini, înregistrează cuvintele pe care le găsește pe pagini. Se notează de câte ori apare fiecare cuvânt, dacă cuvintele sunt ponderate în anumite moduri, poate în funcție de dimensiune, locație sau marcaj HTML, și decide cât de relevante sunt cuvintele pe baza legăturilor care vin în pagină și în contextul general al paginii.

Motoarele de căutare trebuie apoi să pondereze valoarea fiecărei pagini și valoarea fiecărei pagini pentru cuvintele care apar pe ea. Aceasta este partea cea mai dificilă, dar și cea mai importantă. La cel mai simplu nivel, ar putea pur și simplu să țină evidența fiecărui cuvânt de pe pagină și să înregistreze pagina respectivă ca fiind relevantă pentru căutările cu acel cuvânt cheie. Totuși, acest lucru nu ar face prea mult bine pentru majoritatea utilizatorilor, deoarece ceea ce se dorește este pagina cea mai relevantă pentru interogarea lor de căutare. Deci diferite motoare vin cu moduri diferite de ponderare a importanței.

Algoritmii pe care îi folosesc diferitele motoare de căutare sunt bine protejați, pentru a împiedica oamenii să creeze pagini în mod special pentru a obține poziții mai bune, sau cel puțin pentru a limita gradul în care pot face asta. Această diferență este motivul pentru care motoare diferite dau rezultate diferite pentru aceiași termeni. Google ar putea determina că o pagină este cel mai bun rezultat pentru un termen de căutare, iar Ask ar putea determina că aceeași pagină nu se află nici măcar în primele 50. Toate acestea se bazează doar pe modul în care ei apreciază linkurile de intrare și de ieșire, densitatea cuvintelor cheie pe care le au. găsește important, cum apreciază plasarea diferită a cuvintelor și orice număr de factori mai mici.
Cea mai nouă tendință în motoarele de căutare, și probabil viitorul căutării în general, este să se îndepărteze de la căutări bazate pe cuvinte cheie la căutări bazate pe concepte. În această nouă formă de căutare, în loc să limiteze o căutare la cuvintele cheie introduse de utilizator, programul încearcă să descopere ce înseamnă acele cuvinte cheie, astfel încât să poată sugera pagini care ar putea să nu includă cuvântul exact, dar care sunt totuși de actualitate pentru căutare. Acesta este încă un domeniu în curs de dezvoltare, dar până acum pare să aibă mult potențial în a face căutările mai relevante, făcând web-ul un loc și mai ușor pentru a găsi exact ceea ce căutați.