Grazie alle tecnologie impiegate dai programmi OCR professionali, digitalizzare un documento stampato significa dare nuova vita alle informazioni affidate alla carta.
I programmi OCR (Optical Character recognition), infatti, sono in grado di riconoscere i caratteri stampati o dattiloscritti attraverso la lettura ottica e creare un file del testo digitalizzato.
Esistono tre tipologie di questi software, le quali si basano sulla capacità di interpretare un archivio più o meno ricco di caratteri tipografici (font): gli OCR monofont, multi font e omnifont. Dai meno flessibili monofont, ai potenti omnifont, i programmi per la lettura ottica dei caratteri stampati permettono l’identificazione del carattere analizzandone la forma ottica. Per tale motivo, la qualità della stampa o dello strumento di scansione può inficiare le funzionalità del software.
Anche nei casi di scarsa qualità dell’originale, però, i sistemi professionali di digitalizzazione documentale possono ricorrere a tecnologie specifiche per ridurre il margine d’errore (ad es. il voting).
Quando i documenti stampati da sottoporre a processo di digitalizzazione contengano anche parti di testo scritte a mano, si ricorre all’integrazione di sistemi ICR (Intelligent Character Recognition) che supportano i programmi OCR nell’elaborazione dei caratteri manoscritti.