Come identificare i file PDF che richiedono OCR?

Ho oltre 30.000 file pdf. Alcuni file sono già OCR e altri no. C'è un modo per scoprire quali file sono già OCR e quali pdf sono solo immagini?Come identificare i file PDF che richiedono OCR?

Ci vorrà per sempre se eseguo ogni singolo file tramite un processore OCR.

fonte

2011-10-12 Fuji - H2O

Scriverei un piccolo script per estrarre il testo dai file PDF e vedere se è "vuoto". Se c'è del testo, il PDF era già OCR. È possibile utilizzare ghostscript o XPDF per estrarre il testo.

EDIT: Questo dovrebbe iniziare:

foreach ($pdffile in get-childitem -filter *.pdf){ 
    $pdftext=invoke-expression ("\path\to\xpdf\pdftotext.exe '"+$pdffile.fullname+"' -"); 
    write-host $pdffile.fullname 
    write-host $pdftext.length; 
    write-host $pdftext; 
    write-host "-------------------------------"; 
}

Purtroppo, anche quando si hanno solo immagini nel vostro pdf pdftotext estrarrà del testo, in modo da avere per fare un po 'più di lavoro per verificare se è necessario all'OCR il pdf.

fonte

2011-10-12 13:42:25

Grazie per la risposta. Almeno mi hai dato qualcosa a cui pensare. Potrebbe essere costruito uno script PowerShell con ghostscript o xpdf? Hai qualcosa di utile che posso provare? Grazie ancora. –

Aggiunto uno script alla mia risposta –

Grazie per lo snippet di codice. Sarò sicuro di provarlo. –

XPDF ha funzionato per me in un modo diverso. Ma non sono sicuro che sia la strada giusta.

I miei PDF con immagine hanno anche fornito contenuti di testo. Quindi ho usato pdffonts.exe per verificare se i caratteri sono incorporati nel documento o meno. Nel mio caso tutti i file di immagine hanno mostrato "no" per il valore incorporato.

> Config Error: No display font for 'Symbol' 
> Config Error: No display font for 'ZapfDingbats' 
> name         type    emb sub uni object ID 
> ------------------------------------ ----------------- --- --- --- --------- 
> Helvetica       Type 1   no no no  7 0

Dove, come tutti i PDF ricercabili dato 'sì'

> Config Error: No display font for 'Symbol' 
> Config Error: No display font for 'ZapfDingbats' 
> name         type    emb sub uni object ID 
> ------------------------------------ ----------------- --- --- --- --------- 
> ABCDEE+Calibri      TrueType   yes yes no  7 0 
> ABCDEE+Calibri,Bold     TrueType   yes yes no  9 0

fonte

2017-01-06 03:17:01 Ramesh

Come identificare i file PDF che richiedono OCR?

risposta

Problemi correlati