Sto lavorando a un progetto che prevede la conversione di una grande quantità di contenuto HTML in plain/text. Ho un modulo personalizzato che fa il lavoro OK, ma mi chiedo se ci sono alcuni strumenti standard per portare a termine il lavoro.Il modo migliore per convertire l'HTML in testo semplice usando Python
risposta
Html2Text sembra essere una buona opzione
Ecco una libreria Python che fa parsing del codice HTML:
BeautifulSoup è un'altra opzione.
Per salvare gli altri un po 'di tempo in circolo da Google a SO, ecco un Q & A che descrive che Beautiful Soup non è più mantenuta: [WebScraping with BeautifulSoup o LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html). – sage
Bella zuppa sembra essere mantenuta ora penso. – contrebis
questo funziona molto bene –
Il sito non è più accessibile da quando Aaron, l'autore non è più. –
ma il codice può essere trovato su https://github.com/aaronsw/html2text –