Sto usando rvest
per analizzare un sito web. Sto colpendo un muro con questi piccoli spazi non-breaking. Come si rimuove lo spazio bianco creato dall'elemento
in un documento html analizzato?parsing html contenente spazio non freni
library("rvest")
library("stringr")
minimal <- html("<!doctype html><title>blah</title> <p> foo")
bodytext <- minimal %>%
html_node("body") %>%
html_text
ora ho estratto il corpo del testo:
bodytext
[1] " foo"
Tuttavia, non posso rimuovere quel po 'fastidioso di spazi bianchi!
str_trim(bodytext)
gsub(pattern = " ", "", bodytext)
che la funzione 'charToRaw' è meravigliosa! OK, quindi ho effettivamente provato qualcosa di simile. Come da [questa risposta] (http://stackoverflow.com/questions/4515117/php-parsing-problem-nbsp-and-%C3%82), il ' ' viene interpretato come" Â "e" ". Il problema è che mentre potrei far corrispondere la "" con una regex, non posso farlo con lo spazio. Il tuo trucco di codifica non ha aiutato. Perdonami per non aver riprodotto questo lavoro qui; Non riesco a ottenere il "Â" da replicare nel mio esempio – AndrewMacDonald
Vedrai la "Â" se non hai la codifica correttamente impostata sulla variabile. Cosa ottieni se esegui 'Encoding (bodytext)'? Probabilmente si può anche tranquillamente impostarlo su "latin1" – MrFlick
'Encoding (bodytext)' restituisce 'UTF-8', tuttavia ciò che appare come uno spazio vuoto non può essere confrontato con alcuna espressione che indirizzi gli spazi, né' \\ s' né ' [: space:] ' – AndrewMacDonald