2009-09-29 7 views
13

Il 28 settembre 2009 è stata rilasciata la versione 3.5 del Apache POI project che supporta ufficialmente i formati OOXML introdotti in Office 2007, come DOCX e XLSX.Come estrarre testo normale da un file DOCX utilizzando il nuovo supporto OOXML in POI Apache 3.5?

Fornire un esempio di codice per estrarre il contenuto di un file DOCX in testo normale, ignorando tutti gli stili o la formattazione.

Lo chiedo perché non sono riuscito a trovare alcun POI Apache che copra il nuovo supporto OOXML.

risposta

16

Questo ha funzionato per me. Assicurati di aggiungere i vasi necessari (aggiornare XMLBeans, ecc)

public String extractText(InputStream in) throws Exception { 
    XWPFDocument doc = new XWPFDocument(in); 
    XWPFWordExtractor ex = new XWPFWordExtractor(doc); 
    String text = ex.getText(); 
    return text; 
} 
6

Questo è più generico

POITextExtractor poitex = ExtractorFactory.createExtractor (a);

return poitex.getText();

+1

Sono d'accordo. Grazie per una buona risposta che copre l'estrazione di testo più generico. Vorrei poter accettare entrambi. – rcampbell