Eventuali duplicati:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft inputRimuovere MS Word "HTML" usando PHP
mi consentono ai clienti di inserire le note in un editor di testo ricco, e solo recentemente aggiornato a ckEditor 3x, che rimuove per default classi, stili e commenti di MS Word (quando gli utenti incollano nell'oggetto editor). Quindi andando avanti sono tutto pronto.
Recentemente ho avuto bisogno di ripulire 5 anni vale la pena di note alcune delle quali hanno MS Word generato HTML incorporato. Ho bisogno di scorrere questo corpo di testo e pulirlo.
Non è necessario rimuovere tutti i tag di estensione, solo quelli identificati come scritti da Microsoft.
Ho provato con HTMLCleaner, ma non è la rimozione di MS generato HTML. http://word2cleanhtml.com fa esattamente ciò che voglio, tuttavia gli sviluppatori non offrono attualmente l'API per uso pubblico (a partire dal 9 luglio 2012).
Ho guardato per tale classe e spegnendo per le ultime settimane e non sto avendo molta fortuna. Qualcuno di voi ha trovato un corso utile che vorreste condividere?
Per chiarire, ho bisogno di una classe server-side che possa essere incorporata nella mia applicazione esistente. Ci sono alcuni GRANDI strumenti nelle domande/risposte SO riferite da Mario, tuttavia sto scoprendo che sono progettate per conversioni one-shot per la maggior parte - o usando curl per pubblicare sul loro sito web. Non posso farlo con PHI. –
Mario, dove sono finiti i tuoi URL? Erano utili e parte della mia giustificazione per la chiusura. Dovrebbero essere utili all'OP per eseguire la pulizia dell'HTML utilizzando anche uno script retrospettivo. – halfer
Spero che questa domanda sia lasciata disponibile, poiché la risposta di maxhud qui sotto affronta la mia domanda a un T. htmlpurifier è una classe, non un sito web a cui gli utenti navigano e caricano. –