Come convertire BeautifulSoup.ResultSet in stringa

Quindi ho analizzato una pagina html con .findAll (BeautifulSoup) nella variabile denominata result. Se scriv result in Python shell quindi premere Invio, vedo il testo normale come previsto, ma come ho voluto postelaborare questo risultato come oggetto stringa, ho notato che str(result) rendimenti spazzatura, come in questo esempio:Come convertire BeautifulSoup.ResultSet in stringa

\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>

Html l'origine della pagina è utf-8 codificata

Come posso gestirlo?

codice è fondamentalmente questo, nel caso in cui è importante:

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(urllib.open(url).read()) 
result = soup.findAll(something)

Python è 2.7

fonte

2011-10-16 theta

mostrare il codice pls – cetver

Python 2.6.7 BeautifulSoup. versione 3.2.0

questo ha funzionato per me:

unicode.join(u'\n',map(unicode,result))

Sono abbastanza sicuro che un result è un oggetto BeautifulSoup.ResultSet, che sembra essere un ampliamento della lista standard di Python

fonte

2012-03-26 01:15:41

Questo non è spazzatura, che è il testo UTF-8-encoded. Use Unicode instead.

fonte

2011-10-16 06:43:10

è comunemente usato termine per descrivere i problemi di de/codifica dei caratteri, non è certo spazzatura letteralmente – theta

Ma non c'è alcun problema. Questo è testo con codifica UTF-8; semplicemente non lo riconosci. –

Utilizzare questa:

unicodedata.normalize('NFKC', p.decode()).encode('ascii','ignore')

Unicode ha multiple normalization forms che la produzione non dovrebbe essere spazzatura.
Utilizzare l'attributo originalEncoding per verificare lo schema di codifica. Per quanto riguarda le implementazioni
unicode di Python, si riferiscono this document (anche per la normalizzazione)

fonte

2011-10-16 06:43:27

'soup.originalEncoding' restituisce' utf-8'. 'result' che è l'oggetto BS.ResultSet non supporta questo attributo. E sicuramente non voglio decodificare 'utf-8' e codificarlo in ASCII mentre perdo tutti i caratteri stranieri (in inglese). Voglio l'oggetto stringa 'utf-8' da questo oggetto BS.ResultSet – theta

Hai provato a passare attraverso il link dato nella risposta di @ Ignacio? –

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(urllib.open(url).read()) 
#findAll should get multiple parsed result 
result = soup.findAll(something) 
#then iterate result 
for line in result: 
    #get str value from each line,replace charset with utf-8 or other charset you need 
    print line.__str__('charset')

BTW: La versione di BeautifulSoup è beautifulsoup-3.2.1

fonte

2013-08-22 15:30:39 ChangePicture

Come convertire BeautifulSoup.ResultSet in stringa

risposta

Problemi correlati