SalentOS Openbox menu: come modificare le categorie nella propria lingua

SalentOS Openbox menu: come modificare le categorie nella propria lingua

  Una delle novità di SalentOS 14.04 è il nuovo script di creazione e gestione del menu...

SalentOS 14.04 rilasciato e pronto al download!

SalentOS 14.04 rilasciato e pronto al download!

Con immenso piacere annuncio il rilascio di SalentOS 14.04! Dopo mesi di lavoro eccovi il...

SalentOS 12.04.4 rilasciato e disponibile al download

SalentOS 12.04.4 rilasciato e disponibile al download

Con immenso piacere annuncio il rilascio di SalentOS 12.04. nelle versioni UbuBox e...

SalentOS 12.04.3 rilasciato e disponibile al download

SalentOS 12.04.3 rilasciato e disponibile al download

Con immenso piacere annuncio il rilascio di SalentOS 12.04.3 nelle versioni UbuBox e...

Installare la stampante Samsung CLP-365W su Ubuntu

Installare la stampante Samsung CLP-365W su Ubuntu

Ricomincio a scrivere dell'argomento stampanti, questa volta per indicarvi la procedura di...

L'importanza degli strumenti tecnologici nel terzo mondo

L'importanza degli strumenti tecnologici nel terzo mondo

L'accesso a un'istruzione di qualità offre agli studenti del terzo mondo la possibilità di...

  • SalentOS Openbox menu: come modificare le categorie nella propria lingua

    SalentOS Openbox menu: come modificare le categorie nella propria lingua

    Venerdì, 23 Maggio 2014 07:26
  • SalentOS 14.04 rilasciato e pronto al download!

    SalentOS 14.04 rilasciato e pronto al download!

    Domenica, 18 Maggio 2014 13:44
  • SalentOS 12.04.4 rilasciato e disponibile al download

    SalentOS 12.04.4 rilasciato e disponibile al download

    Giovedì, 30 Gennaio 2014 14:30
  • SalentOS 12.04.3 rilasciato e disponibile al download

    SalentOS 12.04.3 rilasciato e disponibile al download

    Giovedì, 19 Settembre 2013 15:48
  • Installare la stampante Samsung CLP-365W su Ubuntu

    Installare la stampante Samsung CLP-365W su Ubuntu

    Venerdì, 10 Maggio 2013 17:43
  • L'importanza degli strumenti tecnologici nel terzo mondo

    L'importanza degli strumenti tecnologici nel terzo mondo

    Venerdì, 26 Aprile 2013 15:54

Gmstyle su Google+

gmstyle+

Gmstyle su Twitter

twitter

Gmstyle su Facebook

Pagina Facebook di Gmstyle.org

Cerca in gmstyle.org

Choose your language

Offrimi un caffè

Siti utili

Majorana

Perchè passare a Linux

UPB
 
 
 
lg logo 2
 
 

Contatori

Clicca per abboarti al Feed

 

 

QR code gmstyle.org

gmstyle's qr code

Tesseract-ocr: come trasformare in testo editabile i documenti  acquisiti tramite scanner su Ubuntu o Debian

tesseractOCR

 

Ho appreso, dalle richieste pervenutemi via email, che alcuni dei miei lettori utilizzano Ubuntu (o Linux in generale) per lavorare ed occuparsi di grafica o editoria, chi per professione e chi per hobby.

Prendo spunto proprio dalla richiesta di un caro ed affezionato utente di questo piccolo spazio web, che ringrazio per l'input fornitomi, per fare un pò di chiarezza su di un argomento che, da quanto mi è parso capire durante le mie ricerche su internet, sembra aver creato qualche difficoltà di applicazione.

 

L'argomento in questione riguarda la tecnologia OCR (Optical Character Recognition) e cioè quella "tecnica" che permette di riconoscere caratteri testuali, per poi rendere tale testo editabile, partendo da immagini di documenti cartacei, precedentemente digitalizzati attraverso lo scanner.


In parole povere, utilizzando il programma Tesseract-ocr (che sfrutta questa tecnologia), se prendiamo un ritaglio di giornale e lo scansioniamo per mezzo del nostro scanner, ne ricaviamo un file immagine (jpeg,tiff, etc etc...) dal quale possiamo estrapolarne il testo e salvarlo come un normale documento txt da modificare, successivamente, a nostro piacimento o secondo il nostro scopo.


Sperando di fare cosa gradita, ho cercato di giungere ad una procedura quanto più semplice e meno invasiva possibile, attingendo da un pò di materiale presente sul web, per permettere a tutti gli interessati all'argomento di poter fare con Ubuntu o Linux quello che ancora li tiene legati a Windows.


In questa piccola guida, per raggiungere il nostro scopo su Ubuntu 10.10, utilizzeremo, oltre a Tesseract-ocr e a gImageReader, anche il programma Xsane, che ci servirà pe effettuare la scannerizzazione dei documenti.

 

Vediamo subito il da farsi!!!


1- Avviamo il gestore pacchetti e selezioniamo ed installiamo il software necessario di seguito elencato:

tesseract-ocr tesseract-ocr-ita imagemagick xsane


clicca per ingrandire

 

2- Ora è il momento di installare l'interfaccia grafica GUI per poter utilizzare Tesseract in maniera semplice ed intuitiva: gImageReader. Lo scarichiamo da questo link. Si tratta di un pacchetto .deb quindi lo installiamo semplicemente cliccandoci sopra. Dopo l'installazione troveremo l'icona in APPLICAZIONI>GRAFICA.


3- Adesso che abbiamo tutto il software che ci serve, passiamo alla pratica e quindi al procedimento vero e proprio.
Avviamo Xsane, sempre da APPLICAZIONI>GRAFICA, attendiamo che riconosca il nostro scanner e procediamo alla configurazione del programma prima di effettuare la scansione. Bisogna settare il tutto in modo tale da permettere una scannerizzazione quanto più precisa possibile del documento. I parametri da inserire su Xsane sono questi che vedete nella figura sottostante


Parametri Xsane

 

In questo modo abbiamo impostato:

 

a- la cartella di destinazione ed il nome del file immagine (la mia home in questo caso ed il file che otterremo si chiamerà out.tif)

 

b- .TIFF come estensione dell'immagine (questo formato è quello che garantisce la miglior qualità rispetto agli altri jpg, jpeg o png)


c- BINARIO è il parametro che sta a significare che l'iimagine del documento sarà resa in BIANCO&NERO. Questo è un passaggio FONDAMENTALE AFFINCHÈ TESSERACT POSSA RICONOSCERE TUTTO IL TESTO DIGITALIZZATO.


d- 1200 dpi come risoluzione. Il valore sotto il quale consiglio di NON scendere, secondo i miei test, causa il mancato riconoscimento totale o parziale testo, è 600 dpi.

 

4- Ora che il tutto è configurato per bene, clicchiamo su "Acquisisci" ed attendiamo la fine del processo che si concluderà con il salvataggio dell'immagine out.tiff nella cartella di destinazione che abbiamo indicato in precedenza (Home in questo caso)

 

5- Adesso che abbiamo ottenuto il nostro documento digitale, dobbiamo avviare Tesseract, attraverso gImageReader, per poter effettuare la SEMPLICE procedura OCR. Andiamo in APPLICAZIONI>GRAFICA e lanciamo il programma.

 

L'interfaccia è, come ho già detto, veramente molto intuitiva e semplice da utilizzare. Basterà, infatti, cliccare su "Apri immagini" per aprire il file out.tif, creato in precedenza, e poi cliccare su "Riconoscere tutto" per iniziare il processo OCR, ed aspettare che finisca.  Al termine, come vedete nella schermata sottostante, comparirà sulla destra, sotto forma di testo, il contenuto del file out.tif


clicca per ingrandire

 

Qualora volessimo ottenere soltanto una parte del testo del nostro documento, basta zoomare sull'immagine e selezionare l'area di nostro interesse.


Terminata la procedura, salviamo il tutto come file di testo e chiudiamo il programma.


CONCLUSIONI - I test da me effettuati mi hanno restituito dei risultati positivi, ma il dato emerso durante le prove riguarda la risoluzione del file immagine ottenuto: MAGGIORE È LA QUALITÀ CHE SI PUÒ OTTENERE DAL PROPRIO SCANNER DURANTE LA SCANSIONE DEI DOCUMENTI, ALTRETTANTO MINORI SARANNO I MARGINI DI ERRORE DEL TESTO OTTENUTO.


NOTA IMPORTANTE- se il file .TIFF non viene riconosciuto all'apertura da gImagereader, modifichiamolo in .TIF (quindi con una sola F) ed il problema è risolto.

 

FONTI:

http://linux.collectiontricks.it/wiki/OCR_con_tesseract_in_XSane
http://gimagereader.sourceforge.net/
http://doc.ubuntu-fr.org/xsane2tess

Aggiungi commento


Codice di sicurezza
Aggiorna


Anti-spam: complete the task