Ho un site che voglio scaricare usando Unix wget
. Se si guarda il codice sorgente e il contenuto del file contiene una sezione chiamata SOMMARIO. Tuttavia dopo un comando wget simili:Come abilitare 'wget' per scaricare l'intero contenuto dell'HTML con Javascript
wget -O downdloadedtext.txt http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly/av.cgi?db=mouse&c=gene&a=fiche&l=2610008E11Rik
Il contenuto del downdloadedtext.txt
è incompleta e differente con il codice sorgente di quel sito. Ad esempio non contiene la sezione SOMMARIO. C'è un modo corretto per ottenere correttamente l'intero contenuto?
La ragione per cui lo chiedo perché voglio automatizzare il download da valori diversi in quell'HTML.
Non capisco. Quali differenze ci sono nel codice sorgente? E cosa c'entra Javascript con questo? –
@Pekka: il corpo che contiene javascript non viene scaricato. Per favore, prova e vedi – neversaint
Non ho wget a portata di mano adesso (su una macchina Windows). Il corpo * effettivo * è diverso o i file js non vengono scaricati? –