Attualmente sto lavorando su un progetto per Android utilizzando tesseract OCR. Speravo di mettere a punto i risultati forniti all'utente aggiungendo un dizionario. Secondo http://code.google.com/p/tesseract-ocr/wiki/FAQ, il modo migliore per andare su questo sarebbe quello diDizionario personalizzato per Tesseract
Sostituire tessdata/eng.user Parole con il proprio elenco di parole, nello stesso formato di - testo UTF8, una parola per riga.
Tuttavia c'è un file non eng.user Parole nella cartella tessdata, suppongo che se solo fare un file di testo con il mio dizionario in esso, non potrà mai essere utilizzato ..
Qualcuno ha avuto un'esperienza simile e sa cosa fare? Qualsiasi consiglio sarebbe di grande aiuto.
Sto cercando di eseguire questo passaggio 3, ma avendo questo errore 'Caricamento unicharset da 'traineddat_backup/.unicharset' Impossibile caricare unicharset da 'traineddat_backup/.unicharset'' Gentilmente mi sto cercando di farlo su aiutare Ubuntu 12.04 e tesseract 3.02. –
@MuhammadMuaz: 'traineddat_backup/.unicharset' è il percorso della cartella dell'output di 1st cmd. Se il primo cmd era './combine_tessdata -u ita.traineddata/path/to/folder/tmp/ita. Il terzo è' ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita. unicharset'. Spero che aiuti, butto via 30 minuti. – Tenaciousd93