2012-09-28 5 views
5

sto avendo problemi con la visualizzazione di contenuti, mio programma:Cambio & # 39 nel personaggio normale

#! /usr/bin/python 

import urllib 
import re 

url = "http://yahoo.com" 
pattern = '''<span class="medium item-label".*?>(.*)</span>''' 

website = urllib.urlopen(url) 
pageContent = website.read() 
result = re.findall(pattern, pageContent) 

for record in result: 
    print record 

uscita:

Masked teen killed by dad 
First look in &#39;Hotel of Doom&#39; 
Ex-NFL QB&#39;s sad condition 
Reporter ignores warning 
Romney&#39;s low bar for debates 

Quindi la domanda è che cosa devo includere nel mio codice in per trasformare & # 39 in caratteri

+0

forse duplicato con http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode- string-in-python – charlee

risposta

8

In python2:

In [16]: text = 'Ex-NFL QB&#39;s sad condition' 

In [17]: import HTMLParser 

In [18]: parser = HTMLParser.HTMLParser() 

In [19]: parser.unescape(text) 
Out[19]: u"Ex-NFL QB's sad condition" 

In python3:

import html.parser as htmlparser 
parser = htmlparser.HTMLParser() 
parser.unescape(text) 
+0

Funziona benissimo! Grazie mille – Vor

0

in Javascript:

text = text.replace(/&#39;/g,"'");