Problema
Sto provando a determinare di che tipo è un documento (ad esempio supplica, corrispondenza, citazione, ecc.) Cercando nel suo testo, preferibilmente usando python. Tutti i PDF sono ricercabili, ma non ho trovato una soluzione per analizzarli con python e applicare uno script per cercarlo (non lo converti prima in un file di testo, ma potrebbe essere molto dispendioso per n documenti).Ricerca di testo in un PDF usando Python?
Quello che ho fatto finora
Ho guardato in pypdf, pdfminer, adobe pdf la documentazione, e tutte le domande qui sono riuscito a trovare (anche se nessuno sembrava di risolvere direttamente il problema). PDFminer sembra avere il maggior potenziale, ma dopo aver letto la documentazione non sono nemmeno sicuro da dove cominciare.
Esiste un metodo semplice ed efficace per leggere il testo PDF, per pagina, riga o per l'intero documento? O altri metodi alternativi?
Stavo cercando la stessa soluzione. Il problema è che i documenti PDF sono noti per suddividere il testo in blocchi difficili da ricomporre. Dipende dal programma che ha scritto il PDF. Ho finito per usare PDFminer e un sacco di codice "elif" per analizzare i PDF. –
Solo un pensiero, forse non pratico ... Se sei alla disperata ricerca di una soluzione alternativa, puoi provare a chiamare pdfgrep (http://pdfgrep.sourceforge.net/) per effettuare la ricerca. –