2011-10-12 1 views

risposta

3

Scriverei un piccolo script per estrarre il testo dai file PDF e vedere se è "vuoto". Se c'è del testo, il PDF era già OCR. È possibile utilizzare ghostscript o XPDF per estrarre il testo.

EDIT: Questo dovrebbe iniziare:

foreach ($pdffile in get-childitem -filter *.pdf){ 
    $pdftext=invoke-expression ("\path\to\xpdf\pdftotext.exe '"+$pdffile.fullname+"' -"); 
    write-host $pdffile.fullname 
    write-host $pdftext.length; 
    write-host $pdftext; 
    write-host "-------------------------------"; 
} 

Purtroppo, anche quando si hanno solo immagini nel vostro pdf pdftotext estrarrà del testo, in modo da avere per fare un po 'più di lavoro per verificare se è necessario all'OCR il pdf.

+0

Grazie per la risposta. Almeno mi hai dato qualcosa a cui pensare. Potrebbe essere costruito uno script PowerShell con ghostscript o xpdf? Hai qualcosa di utile che posso provare? Grazie ancora. –

+0

Aggiunto uno script alla mia risposta –

+0

Grazie per lo snippet di codice. Sarò sicuro di provarlo. –

0

XPDF ha funzionato per me in un modo diverso. Ma non sono sicuro che sia la strada giusta.

I miei PDF con immagine hanno anche fornito contenuti di testo. Quindi ho usato pdffonts.exe per verificare se i caratteri sono incorporati nel documento o meno. Nel mio caso tutti i file di immagine hanno mostrato "no" per il valore incorporato.

> Config Error: No display font for 'Symbol' 
> Config Error: No display font for 'ZapfDingbats' 
> name         type    emb sub uni object ID 
> ------------------------------------ ----------------- --- --- --- --------- 
> Helvetica       Type 1   no no no  7 0 

Dove, come tutti i PDF ricercabili dato 'sì'

> Config Error: No display font for 'Symbol' 
> Config Error: No display font for 'ZapfDingbats' 
> name         type    emb sub uni object ID 
> ------------------------------------ ----------------- --- --- --- --------- 
> ABCDEE+Calibri      TrueType   yes yes no  7 0 
> ABCDEE+Calibri,Bold     TrueType   yes yes no  9 0