Sto riscontrando qualche problema con Apache TIKA (versione 1.10). Ho dei file PDF che sono solo dei pezzi di carta scansionati. Ciò significa che ogni pagina è solo un'immagine. Il mio obiettivo è comunque estrarre il testo dei file PDF.Apache Tika estrae i file PDF scansionati
Il mio tesseract è impostato correttamente e l'estrazione di file JPG e PNG funziona come un incantesimo. Il codice sto usando sembra così (non mente la gestione excetion mancante):
public String extractText(InputStream stream) {
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
parser.parse(stream, handler, metadata, context);
String text = handler.toString();
return text;
}
ho cercato molto, ma non ho trovato alcuna soluzione che lavorano per me. Ho già provato il metodo setExtractInlineImages
della classe PDFParserConfig
ma questo non ha cambiato nulla. Estrarre i documenti incorporati utilizzando un codice personalizzato ParsingEmbeddedDocumentExtractor
ha estratto le risorse incorporate di un file doc ma non per i miei file PDF.
Sarebbe fantastico se qualcuno di voi potrebbe fornire qualche aiuto :)
Ha fatto si allega un 'PDFParserConfig' al contesto con quel set di opzioni? – Gagravarr
Sì, l'ho fatto. Ma questo non ha avuto alcun effetto:/ – LorisBachert
Puoi pubblicare il codice che hai usato per farlo, quindi possiamo verificare se è corretto? – Gagravarr