Quindi ho analizzato una pagina html con .findAll
(BeautifulSoup) nella variabile denominata result
. Se scriv result
in Python shell quindi premere Invio, vedo il testo normale come previsto, ma come ho voluto postelaborare questo risultato come oggetto stringa, ho notato che str(result)
rendimenti spazzatura, come in questo esempio:Come convertire BeautifulSoup.ResultSet in stringa
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
Html l'origine della pagina è utf-8
codificata
Come posso gestirlo?
codice è fondamentalmente questo, nel caso in cui è importante:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python è 2.7
mostrare il codice pls – cetver