ho passato una giornata sulla ricerca di una libreria che può essere utilizzato per realizzare il seguente:Android Web raschiando con un browser senza testa
- Recupera l'intero contenuto di una pagina web, come in background senza rendering risultato a un vista.
- La lib dovrebbe supportare pagine che attivano richieste Ajax per caricare alcuni dati di risultati aggiuntivi dopo che l'HTML iniziale ha caricato, ad esempio.
- Dall'html risultante ho bisogno di prendere gli elementi nel modulo selettore xpath o css.
- In futuro eventualmente anche bisogno di passare a una pagina successiva (sparare eventi, la presentazione pulsanti/link ecc)
Ecco quello che ho provato senza successo:
- Jsoup: Opere grande, ma senza il supporto per JavaScript/AJAX (in modo da non caricare la pagina intera)
- Android costruito nel HttpEntity: stesso problema con javascript/ajax come jsoup
- HtmlUnit: appare esattamente quello che mi serve, ma dopo ore, non riesco a farlo lavorare su E roid (Altri utenti non sono riusciti tentando di caricare i file jar da 12 MB + in più. Io stesso ho caricato il codice sorgente completo e l'ho fatto riferimento come libreria di progetto solo per scoprire che cose come Applet e java.awt (usate da HtmlUnit) non esistono in Android).
- Rhino - Trovo questo molto confuso e non so come farlo funzionare in Android e anche se è quello che sto cercando.
- Driver selenio: sembra che funzioni, ma non si ha un modo semplice per implementarlo in modo headless in modo da non avere l'html effettivo visualizzato in una vista.
Desidero davvero che HtmlUnit funzioni come sembra il più adatto per la mia soluzione. C'è qualche modo o almeno un'altra biblioteca che ho perso che è adatto alle mie esigenze?
Attualmente sto utilizzando Android Studio 0.1.7 e posso passare a Ellipse se necessario.
Grazie in anticipo!
Sembra che non c'è nulla che può essere utilizzato per il mio scenario. Ho iniziato a lavorare su una porta Android per HTMLUnit e spero di avere presto qualcosa a che fare. Inserirò qui non appena avrò controllato un ramo HtmlUnit che chiunque può scaricare. Spero di riuscire a coinvolgere gli sviluppatori HtmlUnit in quanto sembra che ci sia molto interesse per una porta Android. – Pierre
FYI: [PhantomJS.org] (http://phantomjs.org) potrebbe essere utile per gli altri, in termini di "browser headless" – MiStr
Sono passati 4 ANNI E STIAMO ANCORA QUI! STO AFFRONTANDO LO STESSO PROBLEMA! – mehulmpt