Vorrei estrarre il testo da un determinato file PDF con Apache PDFBox.Come estrarre il testo da un file PDF con Apache PDFBox
Ho scritto questo codice:
PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);
PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);
Tuttavia, ho ottenuto il seguente errore:
Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)
ho aggiunto PDFBox-1.8.5.jar e fontbox-1.8.5.jar al percorso di classe.
Modifica
ho aggiunto System.out.println("program starts");
all'inizio del programma.
L'ho eseguito, quindi ho ricevuto lo stesso errore di cui sopra e program starts
non visualizzato nella console.
Quindi, penso di avere un problema con il percorso di classe o qualcosa del genere.
Grazie.
Probabilmente il PDF il file non è completamente valido e fa inciampare PDFBox.È possibile che si desideri fornire il PDF per l'ispezione. – mkl
Sei sicuro di aver avviato il metodo 'main()' corretto? L'eccezione sembra iniziare con il 'main()' di 'org.apache.fontbox.afm.AFMParser' che sembra codice PDFBox, non il tuo codice. – mkl
Hai ragione. Ho resettato la configurazione della corsa e ora il programma funziona. Grazie mille, mkl. – Benben