2012-07-09 11 views
5

Eventuali duplicati:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft inputRimuovere MS Word "HTML" usando PHP

mi consentono ai clienti di inserire le note in un editor di testo ricco, e solo recentemente aggiornato a ckEditor 3x, che rimuove per default classi, stili e commenti di MS Word (quando gli utenti incollano nell'oggetto editor). Quindi andando avanti sono tutto pronto.

Recentemente ho avuto bisogno di ripulire 5 anni vale la pena di note alcune delle quali hanno MS Word generato HTML incorporato. Ho bisogno di scorrere questo corpo di testo e pulirlo.

Non è necessario rimuovere tutti i tag di estensione, solo quelli identificati come scritti da Microsoft.

Ho provato con HTMLCleaner, ma non è la rimozione di MS generato HTML. http://word2cleanhtml.com fa esattamente ciò che voglio, tuttavia gli sviluppatori non offrono attualmente l'API per uso pubblico (a partire dal 9 luglio 2012).

Ho guardato per tale classe e spegnendo per le ultime settimane e non sto avendo molta fortuna. Qualcuno di voi ha trovato un corso utile che vorreste condividere?

+0

Per chiarire, ho bisogno di una classe server-side che possa essere incorporata nella mia applicazione esistente. Ci sono alcuni GRANDI strumenti nelle domande/risposte SO riferite da Mario, tuttavia sto scoprendo che sono progettate per conversioni one-shot per la maggior parte - o usando curl per pubblicare sul loro sito web. Non posso farlo con PHI. –

+0

Mario, dove sono finiti i tuoi URL? Erano utili e parte della mia giustificazione per la chiusura. Dovrebbero essere utili all'OP per eseguire la pulizia dell'HTML utilizzando anche uno script retrospettivo. – halfer

+0

Spero che questa domanda sia lasciata disponibile, poiché la risposta di maxhud qui sotto affronta la mia domanda a un T. htmlpurifier è una classe, non un sito web a cui gli utenti navigano e caricano. –

risposta