Recunoașterea optică a caracterelor (OCR) este un proces de conversie a materialelor tipărite în fișiere text sau de procesare a textului care pot fi editate și stocate cu ușurință. Tehnologia a permis ca astfel de materiale să fie stocate folosind mult mai puțin spațiu de stocare decât materialele pe hârtie. Tehnologia OCR a avut un impact enorm asupra modului în care informațiile sunt stocate, partajate și editate. Înainte de recunoașterea optică a caracterelor, dacă cineva dorea să transforme o carte într-un fișier de procesare de text, fiecare pagină ar trebui să fie tastata cuvânt cu cuvânt.
Tehnologia OCR necesită atât hardware, cât și software. În plus, sistemele OCR sofisticate necesită o placă de circuit suplimentară în computer pentru a finaliza procesul. Un scaner optic scanează textul de pe o pagină, apoi descompune fonturile într-o serie de puncte numite bitmap. Software-ul poate citi cele mai comune fonturi și poate distinge unde încep și se opresc liniile. Acest bitmap este apoi tradus în text de computer.
Deși recunoașterea optică a caracterelor a făcut progrese uriașe în ultimii ani, încă nu funcționează întotdeauna bine în recunoașterea scrisului de mână sau a fonturilor care arată similar cu scrisul de mână. Există sisteme în industria bancară care utilizează tehnologia OCR pentru a încerca să citească sumele de pe cecurile scrise de mână, pentru a merge împreună cu capacitatea computerului de a citi numerele de rutare și de cont.
Pentru a vă oferi o idee despre puterea OCR, vă poate ajuta să aruncați o privire asupra unui exemplu din lumea reală. Imaginați-vă un departament de poliție care are toate cazierele judiciare stocate în dulapuri mari. Deși scanarea a milioane de pagini ar fi o întreprindere costisitoare și consumatoare de timp, beneficiile sunt uriașe.
Odată ce sistemul OCR a convertit paginile în text care poate fi citit de computer, un detectiv, de exemplu, ar putea căuta întregul istoric în câteva secunde. Găsirea manuală a unei anumite înregistrări poate să nu fie prea dificilă, dar imaginați-vă un detectiv care încearcă să caute toate crimele comise într-o anumită intersecție între 8:00 și 8:30. Acest exemplu nu face decât să zgârie suprafața puterii textului căutat și este doar unul dintre motivele pentru care multe companii și instituții cheltuiesc milioane de dolari pentru a OCR datele moștenite.