Ho un po 'di HTML (String) che sto trasmettendo a Jsoup solo per poter aggiungere qualcosa a tutti gli attributi href e src, che funziona bene. Tuttavia, sto notando che per alcuni caratteri HTML speciali, Jsoup li sta convertendo da dire “
al personaggio attuale “
. Eseguo il valore prima e dopo e vedo quel cambiamento.Jsoup con problemi con simboli HTML speciali, ‘ — ecc.
Prima:
THIS — IS A “TEST”. 5 > 4. trademark: ™
Dopo:
THIS — IS A “TEST”. 5 > 4. trademark: ?
Cosa diavolo sta succedendo? In particolare stavo convertendo quei caratteri speciali nelle loro entità HTML prima di qualsiasi roba Jsoup per evitarlo. Le virgolette sono cambiate in virgolette effettive, la maggiore è rimasta invariata e il marchio è diventato un punto interrogativo. Aaaaaaa.
Cordiali saluti, il mio codice Jsoup sta facendo:
Document document = Jsoup.parse(fileHtmlStr);
//some stuff
String modifiedFileHtmlStr = document.html();
Grazie per qualsiasi aiuto!
impressionante, grazie ... funzionato come un fascino. Sono nuovo di Jsoup e non ho visto questo nel ricettario sul loro sito. – mikato
@Andrew Chaschev settings.escapeMode (Entities.EscapeMode.extended); Le entità non vengono trovate e quindi danno un errore. Vedi la mia domanda http://stackoverflow.com/questions/20908946/jsoup-adding-extra-encoded- stuff-for-an-html –
@Andrew Chaschev la classe delle entità ora funziona Ho installato la versione 1.6.1 di jsoup ma ora il file HTML è ancora peggio. La sua appanding & newline ovunque. Aiuto sincero. –