Ho utilizzato Tesseract 3.0.2 OCR SDK per l'estrazione di testo immagine. Ma se uso immagini di testo cinese e passo attraverso l'OCR, Tesseract non mi fornisce i caratteri cinesi invece di ottenere caratteri numerici e inglesi. Ma ho bisogno di caratteri cinesi come mostrato nell'immagine che sto usando.riconoscimento caratteri cinesi con Tesseract OCR
Come posso ottenere questo risultato? C'è un modo per ottenere caratteri cinesi piuttosto che altri caratteri?
Grazie funziona :-) –
Alok, ho provato il tuo campione e funziona bene su circa la metà dei caratteri cinesi semplificati che ho provato. Per il resto può riconoscere un carattere composto come diversi caratteri diversi, ognuno dei quali rappresenta un componente nel carattere composto, o totalmente sbagliato. Conosci qualche metodo per migliorare l'accuratezza del riconoscimento? – CodePlumber
Il nuovo collegamento dati addestrato è https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –