2014-12-27 6 views
11

Sto lavorando al riconoscimento OCR del testo stampato. In particolare, mi sto concentrando sulla fase di pre-elaborazione per migliorare i risultati del motore Tesseract. Ho già ottenuto buoni risultati con soglie adattive, rimozione del rumore, correzione del testo, ecc ... Ma ancora Tesseract sembra fallire quando altri prodotti commerciali restituiscono risultati decenti.Miglioramento dei risultati OCR Tesseract con testo sfocato

Ho usato la seguente immagine di prova e qui ci sono i risultati ottenuti con Tesseract 3.04 rispetto a due apri commerciali OCR. Tutti i 3 servizi sono stati forniti con la stessa immagine binaria che contiene un testo leggermente sfocato.

Text image used to compared the 3 OCR products

Tesseract

Careers in Technology Consulting 

Networking Lunch 
21 m 2014, 11:00 - 14:30 

Definingthecorporatellstmtegy, Wammmwdngdeal, creating 
uniquebwinessisighnwilgbigdam-doesflismflxemmyouafioy? 

Findoutmoreabanhowitfeektomkasatedlflogymbyjoiningour 

for further mm please visit mAeloittexom/weers 

ABBYY Fine Reader Online

Careers in Technology Consulting 
Networking Lunch 
21 November 2014,1140-14:30 
Defining the corporate IT strategy, planning a multHnKon <Mar outsourcing deal, creating unique business insights using big data-doesthis sound Ifce something you enjoy? 
Find out more about hour it feels to work as a technology consultant by joining our exclusive networking lunch, 
For further information please visit wrwMuleloittexom/carcert 

Online OCR

Careers in Technology Consulting Networking Lunch 21 November 2014, 11;00 —14:30 
Defining the corporate IT strategy, planning a muiti-indlimi dollar outsourcing deal, creating unique business insights using big data—does this sound like something you enjoy? 
Find out more about how it feels to work as a tedmology consultant by joining our exclusive networking lunch, 
For further information' please visit wwwdeloitte,com/careers 

Ora mi chiedo se il grande divario tra Tesseract e gli altri due prodotti è dovuto ad un motore diverso (di sicuro ABBYY utilizza il proprio motore, non è sicuro su OCR Web Service) o ci sono alcuni altri passaggi di pre-elaborazione che può essere fatto prima di eseguire Tesseract. Hai qualche suggerimento?

+0

Che ne dici di controllare un post ooooold e accettare una risposta? – Claudio

+0

Che ne dici di controllare un post ooooold e accettare una risposta? – Claudio

risposta

2

Ecco un suggerimento per la preelaborazione OCR "magica". Per spiegare il principio dell'idea di pre-elaborazione proposto, prendiamo in considerazione un estratto dall'immagine testo fornito su cui tutti i OCRs testati fallito:

original image

e applicare ad esso un po ' "di pre-elaborazione-saggezza" . In primo luogo la solita thresholding:

thresholded image

e poi alcuni "magia" sparando linee verticali attraverso la parola-elementi, il rilevamento max. 2 pixel "bar" alti e tagliarle ai bordi insieme con il taglio della parola elemento fino alla sua linea di fondo:

after extracting "i"s

Ora il passaggio da linee di tiro attraverso la parola-elementi in questa immagine da verticale ad quelli orizzontali per rilevare "barre" molto ampi e tagliarli verticale nel mezzo della loro larghezza:

after splitting grown-together characters

questo dovrebbe aiutare ogni OCR-motore per fornire migliori risultati in questa particolare immagine. Posso immaginare che alcuni dei motori commerciali OCR utilizzano questo approccio già in grado di fornire un riconoscimento migliore di quelli testati.

In questo contesto, vorrei menzionare un altro motore OCR disponibile nei repository di Ubuntu (paragonabile a tesseract). Provandoli l'uno contro l'altro ci si può meravigliare ancora di più di come forniscono risultati diversi e quindi di esaminare il loro codice sorgente per sapere :) e di dedurre da questa esperienza qualcosa di commerciale.

sudo apt-get install cuneiform gocr ocrad