Ho un testo HTML come questo:Sostituire entità HTML con i caratteri UTF-8 corrispondenti in Python 2.6
<xml ... >
e voglio convertirlo in qualcosa di leggibile:
<xml ...>
Qualsiasi facile (e veloce) modo di farlo in Python?
Ho un testo HTML come questo:Sostituire entità HTML con i caratteri UTF-8 corrispondenti in Python 2.6
<xml ... >
e voglio convertirlo in qualcosa di leggibile:
<xml ...>
Qualsiasi facile (e veloce) modo di farlo in Python?
http://docs.python.org/library/htmlparser.html
>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('© €')
u'\xa9 \u20ac'
>>> print _
© €
C'è una funzione here che lo fa, come collegato dalla carica Fred ha sottolineato. Copiato qui per rendere le cose più facili.
Credito a Fred Larson per il collegamento all'altra domanda su SO. Credito a dF per la pubblicazione del collegamento.
Penso che la domanda sia un duplicato di questo: http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode-string-in-python –
Possibile duplicato di [Decodifica entità HTML in Python string?] (http://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string) – csl