Sto lavorando a un progetto e ho bisogno di fare un sacco di screen scraping per ottenere molti dati il più velocemente possibile. Mi chiedo se qualcuno sa di buone API o risorse per aiutarmi.Suggerimenti per scraping, scraping schermo e data mining?
Sto usando java, a proposito.
Ecco ciò che il mio flusso di lavoro è stato finora:
- la connessione a un sito web (utilizzando HTTPComponents da Apache)
- sito web contiene una sezione con un mazzo di collegamenti che ho bisogno di visitare (utilizzando built in parser java HTML per capire quali sono tutti i link che devo visitare sono, questo è fastidioso e disordinato codice)
- Visita tutti i link che ho trovato
- Per ogni link che visito, ci sono più dati che ho bisogno di estrarre, distribuire su più pagine, quindi potrei aver bisogno di visi t più collegamenti
Pensieri:
- qualcuno sa di qualsiasi livello superiore/parser html più intelligenti rispetto al costruito in uno java?
- Fondamentalmente si tratta di una prima ricerca di profondità. Immagino che mi piacerebbe realizzare questo multithread in un momento, così posso visitare alcuni di questi collegamenti in parallelo.
- Forse quello che sto veramente cercando è un web crawling multithread biblioteca
Se non avete capito, questa è la mia prima volta nei guai con questo modo che io sto avendo un momento difficile cercando di articolare esattamente quali sono i miei bisogni. Apprezzerei molto ogni input che qualcuno di voi che ha fatto prima di ciò potrebbe avere.
Esattamente quello che parser Java stai usando in questo momento? (Non correlato - il framework di Java Executor è ideale per il parallelismo controllato) – user486972
http://stackoverflow.com/questions/7138296/how-do-i-get-the-source-of-a-given-url-from-a- servlet/7138434 # 7138434 Ho trovato questo. Pensavo che ti interesserebbe. – Srinivas
Dai un'occhiata a http://teusje.wordpress.com/tag/scrape/ contiene informazioni su come raschiare i dati con powershell e perl. – juFo