Come eseguire l’OCR in Ubuntu

Quando si acquisiscono documenti nel computer, è possibile che alcune delle funzionalità di base dei lettori PDF, come la ricerca o l’evidenziazione, non funzionino sui documenti scansionati. Ciò significa che è necessario un programma di riconoscimento ottico dei caratteri (OCR) in grado di portare il testo effettivo, anziché un’immagine del testo, nel computer. Il sistema operativo Ubuntu offre alcuni programmi per facilitare le operazioni OCR, tutti disponibili dai repository di Ubuntu.

Riconoscimento ottico dei caratteri

Il riconoscimento ottico dei caratteri è il software mediante il quale il testo viene riconosciuto dalle immagini e inserito in un documento. Quando si digitalizzano elementi come libri su un computer, lo scanner salva il contenuto digitalizzato come immagine. Il software OCR esegue la scansione del libro e riconosce la differenza tra caratteri e immagini e tra i caratteri stessi, in modo che i documenti scansionati dai libri siano costituiti dal testo, piuttosto che da un’immagine del testo. Ciò consente al software PDF di cercare e annotare il testo scansionato.

Pacchetti OCR di Ubuntu

La distribuzione Ubuntu di Linux ha molti pacchetti OCR disponibili. È possibile installare pacchetti come Tessaract e Cuneiform tramite il repository di Ubuntu o altri pacchetti software OCR. Si noti che i programmi OCR come Tessaract e CuneiForm non sono dotati di interfacce utente grafiche (GUI). OCRFeeder, tuttavia, viene fornito con una GUI, ma manca della precisione dei programmi OCR Tessaract e CuneiForm.

Tessaract e cuneiforme

Tessaract è stato sviluppato dai laboratori HP nel 1985 e rilasciato come codice open source nel 2005. Tessaract è in grado di riconoscere layout e design, come documenti a più colonne e caratteri di circa 40 lingue. CuneiForm è stato sviluppato da Cognitive Technologies e dispone di versioni Windows e Linux. CuneiForm non ha un componente di interfaccia grafica, ma può essere eseguito all’interno di altre GUI come OCRFeeder. Tessaract accetta file TIFF non compressi come input e viene eseguito dalla riga di comando, come nell’esempio seguente:

$> tessaract testpdf.tif output.txt

OCRFeeder

OCRFeeder non esegue effettivamente le attività OCR da solo, ma utilizza i cosiddetti motori OCR per farlo. Ciò significa che puoi abilitare OCRFeeder per utilizzare Tessaract, CuneiForm o altri programmi OCR. In questo modo, puoi installare un programma OCR tramite il repository di Ubuntu, quindi installare OCRFeeder allo stesso modo e usarlo per individuare quel programma OCR ed eseguire i suoi comandi tramite la GUI di OCRFeeder.