L’acquisizione ottica di un documento può avvenire in diversi modi. Il metodo più interessante è sicuramente quello che prevede il riconoscimento con OCR (Optical Character Recognition): si tratta effettivamente di un software che agendo sull’acquisizione dello scanner riesce a rendere del documento cartaceo una versione digitale riconoscendone i caratteri e ridistribuendoli sul nuovo supporto nello stesso ordine. Il risultato del processo di riconoscimento di un documento con OCR è un documento digitale, infine, reso in formato modificabile (es. Microsoft Word).

Questa è un’informazione che forse già in molti conoscevano ma forse questi stessi molti non sapevano che di software OCR per l’acquisizione ottica ne esistono di differenti con differenti scopi. Esistono quindi:

  • OCR dei caratteri stampati: questo tipo di acquisizione di caratteri in alfabeto latino è sicuramente la più sviluppata e rappresenta una sicurezza per i processi di conservazione sostitutiva per esempio. Il tasso di riconoscimento è pari al 99% dei caratteri;
  • OCR dei caratteri scritti a mano libera: con un tasso di riconoscimento un po’ più basso rispetto all’OCR dei caratteri stampati, questo tipo di acquisizione è molto famosa per i PDA o i computer portatili. Il suo funzionamento è basato principalmente sulla co-istruzione di software e uomo i quali devono convenire su di uno schema di formattazione delle lettere;
  • OCR del corsivo: questa è l’ultima frontiera dell’acquisizione mediante OCR. Si tratta di un progetto ancora in lavorazione e che vedrà raggiungere un livello di accuratezza sufficiente a sopperire ai normali usi OCR solo nel momento in cui il software sarà in grado di eseguire un’analisi grammaticale e contestuale del testo da acquisire.

Gli impieghi principali oggigiorno dei sistemi OCR sono volti principalmente al riconoscimento di documenti legali o storici per permettere loro di accedere al processo di conservazione sostitutiva. L’unico problema ancora rilevante in merito è il riconoscimento con OCR di documenti cartacei danneggiati che richiede sempre l’intervento umano per la correzioni di quelle parti che non sono state registrate dal software.

Approfondimenti
Optical Character Recognition

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Sentitevi liberi di contribuire!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *