Un software OCR
Cos’é un software OCR?
E’ un software capace di acquisire un documento da uno scanner o da un file (es. una immagine o un pdf), e interpretarne il testo. Questo significa per esempio che avendo un documento su un foglio e volendo trascriverlo in un file di Microsoft WORD o di Openoffice, non saremo costretti a digitarlo interamente, ma lasceremo che il software riconosca i caratteri e successivamente il nostro lavoro sarà solo quello di fare delle modifiche per correggere errori di interpretazione del software o per aggiungere altro.
Sicuramente molti di voi già utilizzano un software di questo tipo. La maggior parte delle volte l’applicazione viene fornita con uno scanner nuovo, ma ,se semplicemente non ne avete uno, o come me non avete lo scanner ma desiderate far riconoscere al pc dei file pdf, allora vi consiglio Freeocr, software Open source.
L’applicazione deriva da un progetto di Hewlett Packard (1985 - 1995); ora invece a lavorarci su è google.
Dove trovo l’applicazione?
Potete scaricare FREEOCR direttamente dal sito http://softi-freeocr.softonic.it/. Potete farne quello che volete: utilizzarlo in ufficio, modificarlo e ridistribuirlo, in quanto la licenza è la Apache V2.0, una licenza open source.
Per installare il riconoscimento di documenti in italiano andate sul sito http://code.google.com/p/tesseract-ocr/downloads/list e scaricate la ultima versione di Italian language data for Tesseract. Attualmente il file più recente è tesseract-2.00.ita.tar.gz. Decomprimere il file con un qualsiasi programma di decompressione (io ho utilizzato zip-7). Attenzione che per alcuni software (come nel mio caso) dovete fare la doppia decompressione: con la prima otterrete un file .tar e con la seconda la directory finale.
Dopo aver ottenuto la cartella tessdata, copiate tutto il suo contenuto nella directory delle lingue. Per individuare quest’ultima, lanciate FreeOcr, andate dal menu in SETTING > OPEN LANGUAGE FOLDER.
Rilanciando il programma, se l’installazione del riconoscimento in italiano è andato a buon fine, nel menu OCR LANGUAGE vedrete anche ITA.
Come si usa?
Dopo aver lanciato il software, a seconda che stiate importando da uno scanner o da una immagine o da un documento pdf, userete rispettivamente l’icona SCAN o l’icona OPEN o l’icona OPEN PDF.
Notate che sulla destra è descritto in un testo in inglese come fare per ottenere una migliore scansione. Vi è consigliato, per esempio, di impostare la scansione a 300 DPI. Prima di cominciare la scansione, cancellate, cliccando su la X rossa, questo testo.
Successivamente per cominciare il processo di riconoscimento utilizzerete l’icona OCR. Con l’icona di WORD potete aprire direttamente il contenuto in un file Microsoft Word o se preferite copiatelo e incollatelo nel software che state utilizzando.
Spero di esservi stato utile
Luigi Totaro
0 Commenti
Scrivi un commento
Attenzione: I commenti sono valutati da un moderatore, non tutti i commenti vengono pubblicati.
Informativa Privacy (art.13 D.Lgs. 196/2003):
Per poter postare un commento, oltre all'email, é richiesto l'inserimento di nome e cognome. Nome e cognome vengono pubblicati - e, quindi, diffusi - sul Web unitamente al commento postato dall'utente, l'indirizzo e-mail non viene utilizzato se non per inviare comunicazioni relative al commento inserito. Le opinioni ed i commenti inviatici dagli utenti e le informazioni e dati in esso contenuti non saranno destinati ad altro scopo che alla loro pubblicazione su questo sito. In ogni caso, l'utente ha in ogni momento la possibilit´ di esercitare i diritti di cui all' art. 7 del D.Lgs. 196/2003.