Ho un testo che contiene caratteri come "\ xaf", "\ xbe", che, come ho capito da this question, sono caratteri codificati ASCII.Come convertire i caratteri codificati xXY in UTF-8 in Python?
Voglio convertirli in Python ai loro equivalenti UTF-8. Il solito string.encode("utf-8")
genera UnicodeDecodeError
. C'è un modo migliore, ad esempio, con la libreria standard codecs
?
Esempio 200 characters here.
tuo campione non include alcun '\ xaf' o il simile. Hai qualche campione con tali personaggi? – dkarp
I dati di esempio * sono * UTF-8 valido. Con i caratteri di controllo "separatore di record" e "separatore di unità". – dan04
Secondo 'enca' (http://linux.die.net/man/1/enca) è UTF-8" circondato da/intermixato con dati non di testo ". –