Ce este un Screen Scraper?

Un screen scraper este un program de calculator care colectează date bazate pe caractere din afișarea unui alt program. Screen scrapers pot extrage datele pe care le caută și le pot prezenta într-un format mai bogat, cum ar fi grafice sau tabele, sau pur și simplu indexează datele pentru stocare. Există multe alte nume pentru un screen scraper, inclusiv web scraper, content miner, web site ripper, web extractor, automated data collector și HTML scraper.

Un screen scraper va căuta prin codul unui site web și va filtra codul străin care este în vigoare pentru a oferi o prezentare plăcută browserului final. Un astfel de cod este necesar pentru a vizualiza întreaga pagină în aspectul dorit, dar un scraper pur și simplu caută date utile. Aceste date sunt colectate și prezentate ca o bază de date simplă, fără clopoțeii și fluierele codului HTML original furnizat.

Un bun exemplu de răzuitor de ecran în acțiune este cu păianjenii motoarelor de căutare. Acești păianjeni accesează sute de mii de site-uri web, fiecare conținând numeroase pagini. Datele de cuvinte cheie de pe aceste site-uri sunt colectate și indexate, apoi prezentate în cele din urmă utilizatorului final ca rezultate ale motorului de căutare.

Majoritatea screen scrapers caută codarea HTML a unui site web pentru a-și obține informațiile, dar pot căuta și în alte limbaje de scripting, cum ar fi JavaScript sau PHP. Datele care sunt extrase pot fi apoi prezentate ca HTML în sine, astfel încât utilizatorul să le poată accesa cu browser-ul web sau stocate ca date text care pot fi accesate de utilizator offline.

Companiile folosesc screen scrapers pentru a extrage datele dintr-o varietate de site-uri web legate de cuvinte cheie pentru a genera grafice, diagrame, foi de calcul și date de comparație pentru a fi utilizate în rapoarte și prezentări. Screen scraper economisește o cantitate extraordinară de timp, deoarece un angajat care face aceeași sarcină ar trebui să caute site-uri relevante, să facă clic pe linkuri și să răsfoiască fiecare site individual pentru a găsi și înregistra datele aplicabile de care au nevoie. Un screen scraper poate fi folosit și atunci când informațiile sunt stocate pe un sistem care nu mai poate fi accesat din cauza problemelor de compatibilitate cu hardware sau software mai nou.

Screen scrapers pot fi atât o binecuvântare, cât și un blestem pentru proprietarii de site-uri și navigatorii web. În timp ce oferă absolut un serviciu funcțional pentru companii, motoarele de căutare și altele, un screen scraper poate fi folosit și în scopuri mai puțin decât altruiste. De exemplu, companiile sau persoanele care folosesc spam-ul ca metodă de publicitate pot folosi un screen scraper pentru a extrage adresele de e-mail de pe site-uri web.
În timp ce un răzuitor de ecran poate fi un instrument la îndemână, există o dezbatere în rândul comunității web cu privire la legalități și etica atunci când le utilizați. Problemele privind drepturile de autor devin neclare atunci când un screen scraper extrage munca grea a cuiva și o prezintă într-un alt format pentru un alt site web, iar acele site-uri care depind de publicitate pentru a genera venituri au probleme când anunțurile lor sunt eliminate de screen scraper. Drept urmare, unii proprietari de site-uri web au început să implementeze instrumente care vor împiedica site-urile lor să fie răzuite.