Mi piacerebbe rispecchiare un semplice portale Web protetto da password per alcuni dati che mi piacerebbe mantenere aggiornato il mirroring &. In sostanza questo sito Web è solo un elenco di directory con i dati organizzati in cartelle & Non mi interessa davvero di mantenere i file html & altri elementi di formattazione. Tuttavia ci sono alcuni tipi di file enormi che sono troppo grandi per il download, quindi voglio ignorarli.mirror http del sito web, esclusi determinati file
L'utilizzo del flag wget -m -R/--reject
fa quasi ciò che voglio, con la differenza che tutti i file vengono scaricati, quindi se corrispondono al flag -R, vengono eliminati.
Ecco come sto usando wget
:
wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/
che produce output come questo, che conferma che un file escluso (index.html) (a) viene scaricato, e (b) poi viene cancellato:
...
--2012-05-23 09: 38: 38-- http://web.server.org/folder/
Riusare connessione a web.server.org:80 esistente.
Richiesta HTTP inviata, in attesa di risposta ... 401 Autorizzazione richiesta
Riutilizzo della connessione esistente a web.server.org:80.
HTTP richiesta inviata, in attesa di risposta ... 200 OK
Lunghezza: 2677 (2.6K) [text/html]
Risparmio di: `web.server.org/folder/index.html' 100% [= ================================================== ================================================== =================>] 2,677 --.- K/s in 0sManca l'intestazione dell'ultima modifica - i timestamp disattivati.
2012-05-23 09:38:39 (328 MB/s) - `web.server.org/folder/index.html' salvato [2677/2677]
Rimozione web.server.org/folder /index.html poiché dovrebbe essere rifiutato.
...
c'è un modo per forzare wget per rifiutare il file prima di scaricarlo?
C'è un'alternativa che dovrei prendere in considerazione?
Inoltre, perché ottengo un errore di 401 Authorization Required
per ogni file scaricato, nonostante fornendo nome utente & password. È come se wget
tentasse di connettersi ogni volta non autenticato, prima di provare il nome utente/password.
grazie, Mark
See la soluzione sulla modifica di wget da questa domanda (duplicata): http://stackoverflow.com/questions/12704197/wget-reject-still-downloads-file – taranaki