ho pensato la qualità della vostra immagine potrebbe interferire. Binarizzare la tua immagine non ha aiutato: il riconoscimento era zilch. Ho anche provato un'immagine in bianco e nero molto nitida di una soluzione di cruciverba. (vedi sotto) Ancora, non è stato riconosciuto nulla in formato normale o binarizzato.
Così ho rimosso il fondo nero lasciando solo le lettere e le loro cornici nere sottili. Ancora una volta, il riconoscimento era dello 0%.
Quando ho rimosso i riquadri da alcune delle lettere E ho binarizzato l'immagine, le uniche parti che erano riconoscibili erano quelle regioni in cui non c'erano nient'altro che lettere. (Vedi sotto)
Avviso nell'output di seguito, FORMICHE, PNEUMATICI, e Texas sono correttamente identificati (così come vettori), ma solo di nient'altro.
Si noti inoltre che, anche se le stringhe erano ampiamente distanziate, mma le interpretava come parole, piuttosto che lettere separate. Nota "TEXAS" invece di "T E X A S".
TextRecognize[[email protected]]
(* output *)
ANTS FFWWW FEEWF
E R o If IU I?
E A FI5F WWWFF 5
5552? L E F F
T s E NTT BT|
[email protected];EE F
5 W E ; OCS
FOFT W W R AL%AE
A TT I T ? _
i [email protected]'NF WG%S W
A A EW F I i
SWWTW W ALTFCWD N
H A V 5 A F F
PLATT EWWLIGHT
W N E T
HE TIRES C
TEXAS VECTORS
Non ho avuto la pazienza di pulire completamente l'immagine. Sarebbe stato molto più veloce ridigitare il testo a mano.
Conclusione: non utilizzare il riconoscimento del testo in mma a meno che non si abbia del testo assolutamente chiaro su uno sfondo di colore uniforme, luminoso, preferibilmente bianco.
I risultati variano anche in base al formato di file utilizzato. Evita il .pdf del tutto.
Modifica
ACL catturato e cercato di riconoscere gli ultimi 5 righe (sopra Edit). I suoi risultati (in un commento qui sotto): per lo più senza senso.
Ho deciso di fare lo stesso. Ma dal momento che Prashant ha avvertito che la dimensione del testo fa la differenza, ho eseguito lo zoom avanti in modo che il testo appaia (ai miei occhi) di circa 20 pica. Di seguito l'immagine del testo che ho scansionato e TextRecognize
d.
Ecco il risultato di un unbinarized TextRecognize
(a quel grande):
Gliii. Q lk-ii`t`*¥ if EY £\[CloseCurlyDoubleQuote]1\[Euro]'EE \
Di'¥C~E\"P ITF SKI' T»f}!E'!',IL:?E\[CloseCurlyDoubleQuote] I 2 VEEE5\
\[CloseCurlyQuote] LEP \"- \"VE
1. ur e=\\..r.1.»».»\\\\ rw r 1»»\\|a'*r | r .fm -»'-an \
\[OpenCurlyQuote] -.-rr -_.»~|-.'i~-.w~,.-- nv n.w~»-\
\[OpenCurlyDoubleQuote]~"
Ora, ecco il risultato per la TextRecognize
dell'immagine binarizzata. L'immagine originale era una .png di Jing.
I didn't have the patience to completely clean up the image. It would \
have been much faster to retype the
text by hand.
Conclusion: Don't use text recognition in mma unless you have \
absolutely clear text against an even-
colored, bright, preferrably white, background.
The results also varied depending on the file format used. Avoid .pdf \
altogether.
Puoi rendere * la * domanda * più esplicita nella descrizione? (A proposito, l'ho provato una volta, e sono d'accordo, non è molto buono, non mi sono preoccupato molto di farlo funzionare. Forse è interessante notare che usa [Teserract] (http://code.google.com/p/ tesseract-ocr /)) – Szabolcs
Penso che Calle volesse verificare se la funzione di riconoscimento del testo fosse limitata come sospettava che fosse. In caso contrario, cosa ha fatto che era sbagliato? In tal caso, cosa è necessario per la scansione di un testo con un alto tasso di successo? – DavidC
si potrebbe desiderare di iniziare un'immagine ad alta risoluzione, 'TextRecognize' non riconosce il testo qui sotto certa soglia –