Sto utilizzando Jsoup per rimuovere tutte le immagini da una pagina HTML. Sto ricevendo la pagina attraverso una risposta HTTP, che contiene anche il set di caratteri del contenuto.Jsoup esegue il escape dei caratteri speciali
Il problema è che Jsoup recupera alcuni caratteri speciali.
Ad esempio, per l'ingresso:
<html><head></head><body><p>isn’t</p></body></html>
Dopo aver eseguito
String check = "<html><head></head><body><p>isn’t</p></body></html>";
Document doc = Jsoup.parse(check);
System.out.println(doc.outerHtml());
ottengo:
<html><head></head><body><p>isn’t</p></body></html><p></p>
voglio evitare di modificare il codice HTML in qualsiasi altro modo, tranne per rimuovere le immagini.
Utilizzando il comando:
doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode(EscapeMode.extended);
io capisco l'output corretto, ma sono sicuro che ci sono casi in cui che charset non sarà buono. Voglio solo usare il set di caratteri specificato nell'intestazione HTTP e temo che questo cambierà il mio documento in modi che non posso prevedere. Esiste un altro metodo più pulito per rimuovere le immagini senza modificare inavvertitamente qualcos'altro?
Grazie!
Grazie, lo userò per ora anche se mi piacerebbe che ci fosse una soluzione nell'API di Jsoup. – dlv
@dlv Si prega di consultare il mio aggiornamento. – Stephan
Grazie! Questo è davvero informativo. – dlv