L’acquisizione ottica è il primo passaggio del processo di dematerializzazione delle informazioni affidate al supporto cartaceo. Il risultato di questo primo step è la creazione d’immagini di documenti.
Grazie all’ impiego di scanner professionali, il processo di acquisizione documentale fornisce file grafici dalla resa fedele e dalla risoluzione adeguata. Tuttavia, tali file sono immagini il cui testo non è né ricercabile né editabile. Per rendere il contenuto disponibile è necessario invece provvedere all’estrazione del testo dalle immagini.
OCR: la tecnologia che estrae il testo da file d’immagine
Grazie a software OCR professionali, è possibile trasformare la lettera-immagine in lettera-testo. Il software è infatti in grado di riconoscere i caratteri e salvarli in un file di testo editabile e ricercabile.
In seguito all’estrazione del testo la documentazione diventa abilitata alle ricerche full text. Insieme alla ricerca e indicizzazione per metadati, la possibilità di effettuare ricerche per parole chiave all’interno dei contenuti è un valore aggiunto inestimabile che libera molte delle potenzialità di un archivio digitale.
In questo senso, l’estrazione del testo dalle immagini di documenti è un processo necessario e fondamentale per ottenere un archivio digitale pienamente funzionale.