2010-02-15 13 views

risposta

3

Con un po 'di google ho trovato OpenXML4J. Questo potrebbe risolvere il tuo problema. Non l'ho usato prima di essere sicuro che qualcuno nella comunità avrà una visione migliore.

Nota: Questa è una domanda duplicata. Questo ha la soluzione più un po 'di discussione. Link to the question.

+1

È ragionevole mantenere entrambe le domande, dato che si sta chiedendo del formato di documento Word e di un altro Excel? Possono essere due sottoinsiemi di una specifica di formato documento più grande, sinceramente non lo so. –

+0

Credo che sia un duplicato perché ogni domanda si domanda su Office 2007 java api. L'altra domanda, IMHO, risponde alla posta. :) – XanderLynn

5

Se non si richiedono informazioni di formattazione, immagini e tutte le altre cose di fantasia, il lavoro è molto più semplice. Basteranno solo 5-10 righe di codice.

  1. Trattare DOCX come file zip. Consiste in un mucchio di file che include 'document.xml'. Usa ZipInputStream ed estrai il file da solo. (puoi usare la tua utility zip preferita e aprire docx e vedere tu stesso!)
  2. Usa un parser SAX e leggi i contenuti tra il corpo del nodo/p/r/t - voilà hai il testo!

Questo è applicabile solo se è necessario il testo solo.

+0

Ciao Joseph, puoi scrivere qui il codice breve? Sarebbe di grande aiuto per me ... –

2

Prova apache poi - può gestire doc, docx, xls, xlsx, ppt, pptx.

Un'altra soluzione a livello di produzione è OpenOffice in modalità senza testa che può essere utilizzata anche in uno scenario lato server.