2009-02-28 12 views

risposta

13

Gli esempi e il codice di esempio sul sito di apache sono piuttosto buoni. Ti consiglio di iniziare da lì.

http://poi.apache.org/hwpf/quick-guide.html

Per ottenere risultati specifici bit di testo, creare prima un org.apache.poi.hwpf.HWPFDocument. Recupera l'intervallo con getRange(), quindi ottieni i paragrafi da questo. È quindi possibile ottenere testo e altre proprietà.

Here per un esempio di estrazione di un'immagine. Here per la revisione più recente al momento della stesura.

E, naturalmente, il Javadocs

Si noti che, secondo il sito POI,

HWPF è ancora in fase di sviluppo iniziale.

1

non è gratuito (o anche a buon mercato!), Ma Aspose.Words dovrebbe essere in grado di fare questo. Il loro download di valutazione ti consentirà di giocare con file di piccole dimensioni.

Anche i file di destinazione devono essere Docs? Puoi aprire i documenti in Office e salvarli come HTML. Quindi la separazione diventa banale. RTF è anche un'opzione valida, ma non posso raccomandare un buon parser RTF fuori dalla mia testa.

Modifica per dire: Ho appena ricordato un'altra possibile soluzione: Jacob, ma è necessaria un'istanza di Office in esecuzione sulla stessa macchina. È l'abbreviazione di Java COM Bridge e consente di effettuare chiamate alle librerie COM in Office per manipolare i documenti. Sono sicuro che non è così spaventoso come potrebbe sembrare!