Jak wybrać najlepsze oprogramowanie OCR?

Oprogramowanie do optycznego rozpoznawania znaków (OCR) to oprogramowanie zaprojektowane do tłumaczenia obrazów tekstu na rzeczywisty tekst, który może odczytać komputer. Zwykle jest używany po zeskanowaniu obrazu do komputera, chociaż mogą być również używane inne formy wprowadzania. Oprogramowanie OCR działa najlepiej w przypadku tekstu, który został już wpisany, zarówno w przypadku utraty oryginalnego wydruku, jak i skanowania arkuszy pisanych na maszynie do pisania. Dobre oprogramowanie może również być w stanie przetłumaczyć tekst pisany odręcznie, chociaż wskaźnik błędów przy tego rodzaju konwersji jest zwykle znacznie wyższy.

Rzeczywisty termin „oprogramowanie OCR” jest nieco mylący, ponieważ większość nowoczesnych wersji w rzeczywistości nie wykorzystuje optycznego rozpoznawania znaków, ale w rzeczywistości używa cyfrowego rozpoznawania znaków. Dzieje się tak, ponieważ kilka lat temu dziedziny skutecznie się połączyły i obie dziedziny przyjęły bardziej atrakcyjny termin optyczne rozpoznawanie znaków. Oprogramowanie OCR znacznie się rozwinęło w ostatnich latach, a nowoczesne programy znacznie lepiej niż ich poprzednicy identyfikują tekst.

W rzeczywistości wczesne oprogramowanie OCR wymagało przeszkolenia programu w zakresie określonej czcionki, zanim można było ją dokładnie wprowadzić. Podobnie przy wprowadzaniu pisma ręcznego program musiałby zostać przeszkolony, co może być niezwykle czasochłonne. Metody uległy jednak poprawie, a bardziej inteligentne systemy są obecnie normą. Stosowane metody są obecnie stosunkowo statyczne, tylko niewielka część badań ma na celu opracowanie całkowicie nowych metod, a większość badań ma na celu udoskonalenie istniejących procedur, aby uczynić je jeszcze bardziej dokładnymi. Wczesne wersje oprogramowania były używane w wielu różnych aplikacjach, przy czym duże korporacje używały ich do odczytywania odcisków kart kredytowych w latach pięćdziesiątych, a Poczta Stanów Zjednoczonych używała ich do sortowania poczty od połowy lat sześćdziesiątych.

Dziesięć lat temu wybór oprogramowania OCR był trudny, ponieważ wiele programów było dość kiepskich w niektórych zadaniach, a całkiem dobrych w innych. Obecnie jednak pole zostało w dużej mierze wyrównane. Dokładność każdego dobrego oprogramowania do tłumaczenia napisanych skryptów łacińskich przekracza 99%. Jednak jeśli chodzi o wprowadzanie pisma ręcznego lub bardziej skomplikowanych krojów pisma, oprogramowanie OCR nadal ma stosunkowo duży zasięg.

Koszt oprogramowania OCR również podlega znacznym wahaniom, często w zależności od jego dokładności. Można znaleźć sporo wolnego oprogramowania, które nadaje się do wprowadzania materiałów drukowanych, a niektóre można znaleźć, które są stosunkowo dobre w wykrywaniu pisma ręcznego, zwłaszcza po pewnym przeszkoleniu. Droższe pakiety oprogramowania, takie jak pakiet OmniPage, który kosztuje około 100 USD (USD) za wersję domową i około 450 USD za wersję profesjonalną, mogą pochwalić się imponującym zestawem funkcji i ogólnie wyższymi wskaźnikami powodzenia.
Niestety, wciąż nie ma czegoś takiego jak doskonałe oprogramowanie OCR, więc wybór programu do zakupu może być nadal w dużej mierze frustrującym procesem. Nawet najlepsze programy prawdopodobnie będą miały trudności z pisaniem odręcznym, a błędy nieuchronnie będą się pojawiać, nawet na niskich poziomach. W większości przypadków wybór programu do kupienia sprowadza się do dodatkowych funkcji: wielojęzyczna obsługa, integracja skanowania i konwersji za jednym dotknięciem, automatyczna konwersja plików PDF i rozpoznawanie całych słów w specjalistycznych dyscyplinach, takich jak prawo i medycyna.