2012-03-05 7 views
10

Attualmente sto lavorando su un progetto per Android utilizzando tesseract OCR. Speravo di mettere a punto i risultati forniti all'utente aggiungendo un dizionario. Secondo http://code.google.com/p/tesseract-ocr/wiki/FAQ, il modo migliore per andare su questo sarebbe quello diDizionario personalizzato per Tesseract

Sostituire tessdata/eng.user Parole con il proprio elenco di parole, nello stesso formato di - testo UTF8, una parola per riga.

Tuttavia c'è un file non eng.user Parole nella cartella tessdata, suppongo che se solo fare un file di testo con il mio dizionario in esso, non potrà mai essere utilizzato ..

Qualcuno ha avuto un'esperienza simile e sa cosa fare? Qualsiasi consiglio sarebbe di grande aiuto.

risposta

9

se stai utilizzando tesseract 3 (che presumo tu sia). Dovrai ricostruire il file eng.trainddata Intendevo sostituire completamente il file word-dawg per cercare di ottenere risultati migliori (ad es. Le parole che sto rilevando sono sempre le stesse).

per la compilazione di tesseract sono necessari i file eseguibili combined_tessdata e wordlist2dawg nella directory di formazione.

  1. unpack tutto (ho fatto questo solo per eseguire il backup mia eng.word-Dawg, avrete anche bisogno del unicharset più tardi)

    ./combine_tessdata -u eng.traineddata

  2. creare un file di testo della vostra lista di parole (wordlistfile)

  3. creare un eng.word-dawg

    ./wordlist2dawg wordlistfile eng.word-Dawg traineddat_backup/.unicharset

  4. sostituire il file word-Dawg

    ./combine_tessdata -o eng.traineddata eng.word-Dawg

che dovrebbe essere.

+1

Sto cercando di eseguire questo passaggio 3, ma avendo questo errore 'Caricamento unicharset da 'traineddat_backup/.unicharset' Impossibile caricare unicharset da 'traineddat_backup/.unicharset'' Gentilmente mi sto cercando di farlo su aiutare Ubuntu 12.04 e tesseract 3.02. –

+0

@MuhammadMuaz: 'traineddat_backup/.unicharset' è il percorso della cartella dell'output di 1st cmd. Se il primo cmd era './combine_tessdata -u ita.traineddata/path/to/folder/tmp/ita. Il terzo è' ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita. unicharset'. Spero che aiuti, butto via 30 minuti. – Tenaciousd93