Python Versione 2.7Estrazione di testo da un file PDF utilizzando PDFMiner in python?
Cerco documentazione o esempi su come estrarre il testo da un file PDF utilizzando PDFMiner con Python.
Sembra che PDFMiner abbia aggiornato la propria API e tutti gli esempi rilevanti che ho trovato contengano codice obsoleto (le classi e i metodi sono cambiati). Le librerie che ho trovato che semplificano l'estrazione di testo da un file PDF utilizzano la vecchia sintassi di PDFMiner, quindi non sono sicuro di come farlo.
Così com'è, sto solo guardando il codice sorgente per vedere se riesco a capirlo.
Si prega di check out http://stackoverflow.com/help/how-to-ask e http://stackoverflow.com/help/mcve e aggiorna la risposta in modo che sia in un formato migliore e sia conforme alle linee guida. – Parker
Quale distribuzione di Python stai utilizzando, 2.7.xo 3.x.x? Va notato che l'autore * ha esplicitamente * specificato che 'PDFminer' non funziona con Python 3.x.x. Questo potrebbe essere il motivo per cui stai ricevendo errori 'import'. Dovresti usare 'pdfminer3k' se è così, dato che è l'importazione permanente di Python 3 di detta libreria. – Manhattan
@Nanashi, mi dispiace, ho dimenticato di aggiungere la mia versione Python. È 2,7 quindi non è questo il problema. Ho osservato il codice sorgente e sembra che abbiano ristrutturato alcune cose, motivo per cui le importazioni stanno crollando. Non riesco a trovare alcuna documentazione per PDFMiner o mi piacerebbe solo risolverlo :( – DuckPuncher