Sono appena iniziato con HTMLUnit e quello che sto cercando di fare è prendere una pagina web ed estrarre il testo non elaborato da tutto il markup html.Come estrarre il testo senza tag HTML da una pagina Web utilizzando HtmlUnit?
Può l'unità html realizzarlo? Se é cosi, come? O c'è un'altra biblioteca che dovrei guardare?
per esempio se la pagina contiene
<body><p>para1 test info</p><div><p>more stuff here</p></div>
Mi piacerebbe che in uscita
para1 test info more stuff here
grazie
comunque di fare questo con la libreria htmlclient? – James
Sembra che sia possibile (presumo che tu ti riferisca ad Apache HttpClient) - http://svn.apache.org/viewvc/httpcomponents/oac.hc3x/trunk/src/examples/TrivialApp.java?view=markup – Syntax