Sto cercando qualcosa in Java per leggere nei documenti di Word per elaborare il loro testo .. tutto ciò di cui ho bisogno è il testo, niente di speciale. So di Apache POI, tuttavia non include il supporto per DOCX in questo momento, qualcosa là fuori?Leggere documenti Microsoft Word in testo normale (DOC, DOCX) in Java
risposta
Con un po 'di google ho trovato OpenXML4J. Questo potrebbe risolvere il tuo problema. Non l'ho usato prima di essere sicuro che qualcuno nella comunità avrà una visione migliore.
Nota: Questa è una domanda duplicata. Questo ha la soluzione più un po 'di discussione. Link to the question.
Se non si richiedono informazioni di formattazione, immagini e tutte le altre cose di fantasia, il lavoro è molto più semplice. Basteranno solo 5-10 righe di codice.
- Trattare DOCX come file zip. Consiste in un mucchio di file che include 'document.xml'. Usa ZipInputStream ed estrai il file da solo. (puoi usare la tua utility zip preferita e aprire docx e vedere tu stesso!)
- Usa un parser SAX e leggi i contenuti tra il corpo del nodo/p/r/t - voilà hai il testo!
Questo è applicabile solo se è necessario il testo solo.
Ciao Joseph, puoi scrivere qui il codice breve? Sarebbe di grande aiuto per me ... –
Si potrebbe provare docx4j; vedi http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
Prova apache poi - può gestire doc, docx, xls, xlsx, ppt, pptx.
Un'altra soluzione a livello di produzione è OpenOffice in modalità senza testa che può essere utilizzata anche in uno scenario lato server.
È ragionevole mantenere entrambe le domande, dato che si sta chiedendo del formato di documento Word e di un altro Excel? Possono essere due sottoinsiemi di una specifica di formato documento più grande, sinceramente non lo so. –
Credo che sia un duplicato perché ogni domanda si domanda su Office 2007 java api. L'altra domanda, IMHO, risponde alla posta. :) – XanderLynn