Le persone che inviano contenuti al mio sito Web utilizzano Word, quindi ottengo molti documenti di Word per convertirli in HTML. Voglio conservare solo la formattazione di base: titoli, elenchi ed enfasi: nessuna immagine.Da MS Word o Libre Office per pulire HTML
Quando li converto con Libre Office "Salva come HTML", i file risultanti sono enormi, ad esempio un file doc di 112K diventa HTML 450K, la maggior parte dei tag inutili FONT e SPAN (per qualche motivo, ogni singolo il segno di punteggiatura è racchiuso nel suo stesso intervallo!).
Ho provato questo script: http://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708 basato su ordinato e sed, e ha ridotto le dimensioni a circa 150 K, ma ci sono ancora molti SPAN inutili.
Ho provato a copiare e incollare in Kompozer - un editor HTML, e quindi salvare come HTML; ma ha convertito tutte le mie lettere non latine (ebraiche) in entità come "ְ", che ha aumentato la dimensione a 750K!
ho cercato docvert: https://github.com/holloway/docvert/issues/6 ma scoperto che richiede una libreria python che richiede un altro biblioteche, ecc, che sembra come un percorso senza fine di dipendenze ...
c'è un modo semplice per tenere pulita HTML dai documenti di Office?
Questo è probabilmente un duplicato: http://stackoverflow.com/questions/67964/what-is-the-best-free-way-to-clean-up-word-html/1813798#1813798 –