Software-ul de recunoaștere optică a caracterelor (OCR), este un software conceput pentru a traduce imaginile textului în text real pe care un computer îl poate citi. În general, este utilizat după ce o imagine a fost scanată într-un computer, deși pot fi utilizate și alte forme de intrare. Software-ul OCR funcționează cel mai bine pe text care a fost deja tastat, fie în cazurile în care s-a pierdut o imprimare originală, fie în foile de scanare tastate la o mașină de scris. Cu toate acestea, software-ul bun poate fi capabil să traducă text scris de mână, deși rata de eroare la acest tip de conversie tinde să fie mult mai mare.
Termenul actual de software OCR este puțin înșelător, deoarece majoritatea versiunilor moderne nu utilizează de fapt recunoașterea optică a caracterelor, ci de fapt utilizează recunoașterea digitală a caracterelor. Acest lucru se datorează faptului că acum câțiva ani câmpurile au fuzionat efectiv și ambele câmpuri au adoptat termenul mai atractiv de recunoaștere optică a caracterelor. Software-ul OCR a avansat mult în ultimii ani, cu programe moderne substanțial mai bune decât predecesorii lor la identificarea textului.
De fapt, software-ul OCR timpuriu necesita instruirea programului pe un anumit font înainte de a putea fi introdus cu precizie. În mod similar, la introducerea scrisului de mână, programul ar trebui să fie antrenat, un proces care ar putea consuma incredibil de timp. Cu toate acestea, metodele s-au îmbunătățit, iar sistemele mai inteligente sunt acum norma. Metodele folosite sunt acum relativ statice, doar puțină cercetare fiind destinată dezvoltării de metode complet noi, iar majoritatea cercetărilor mergând spre perfecționarea procedurilor existente pentru a le face din ce în ce mai precise. Versiunile timpurii de software au fost folosite într-o gamă largă de aplicații, corporațiile majore le-au folosit pentru a citi amprentele cărților de credit în anii 1950, iar Serviciul Poștal al Statelor Unite le-a folosit pentru a sorta corespondența încă de la mijlocul anilor 1960.
În urmă cu zece ani, alegerea unei piese de software OCR a fost dificilă, deoarece multe programe erau destul de proaste la anumite sarcini și rezonabil de bune la altele. În aceste zile, însă, terenul a fost în mare măsură nivelat. Ratele de precizie în orice software bun pentru traducerea scripturilor latine care au fost tastate sunt peste 99%. Când vine vorba de introducerea scrisului de mână, totuși, sau a fonturilor mai complicate, software-ul OCR are încă o gamă relativ mare.
Costul software-ului OCR fluctuează, de asemenea, foarte mult, adesea în raport cu ratele de precizie cu care se laudă. Poate fi găsită o cantitate destul de bună de software gratuit care este potrivit pentru introducerea materialelor tipărite și pot fi găsite unele care sunt relativ bune la detectarea scrisului de mână, mai ales cu o anumită pregătire. Suitele software mai scumpe, cum ar fi suita OmniPage, care costă aproximativ 100 USD pentru versiunea acasă și aproximativ 450 USD pentru versiunea profesională, se laudă cu o serie impresionantă de caracteristici și, în general, cu rate de succes mai mari.
Din păcate, încă nu există un software OCR perfect, așa că alegerea unui program de cumpărat poate fi în mare parte un proces frustrant. Chiar și cele mai bune programe vor avea probabil o perioadă dificilă cu scrisul de mână, iar erorile se vor strecura inevitabil, chiar și la niveluri scăzute. În cea mai mare parte, alegerea unui program de cumpărat se reduce la funcții suplimentare: asistență multilingvă, scanare cu o singură atingere și integrare conversie, conversie automată PDF și recunoaștere a cuvintelor întregi în discipline specializate, cum ar fi domeniile juridice și medicale.