Sto provando a caricare i dati su Google Cloud Storage da un disco con ~ 3000 file per un totale di 1 TB. Sto usando gsutil cp -R <disk-top-directory> <bucket>
. La mia comprensione è che, se gsutil
viene ripreso/riavviato, utilizza i checksum per determinare quando un file è già stato caricato e lo ignora.Riprendi gsutil sembra ricaricare i file
Non sembra che stia facendo questo: sembra riprendere il caricamento dall'alto e la sostituzione dei file tutto da capo. Quando eseguo i successivi gsutil ls -Rl <bucket/disk-top-directory>
a dieci minuti di distanza e li confronta con diff
, vedo quelli che sembrano gli stessi file con le stesse dimensioni ma una data (più recente) modificata. (Vale a dire in linea con lo stesso file in fase di re-inserito.)
Ad esempio:
< 404104811 2014-04-08T14:13:44Z gs://my-bucket/disk-top-directory/dir1/dir2/dir3/dir4/dir5/file-20.tsv.bz2
---
> 404104811 2014-04-08T14:43:48Z gs://my-bucket/disk-top-directory/dir1/dir2/dir3/dir4/dir5/file-20.tsv.bz2
La macchina che sto usando per leggere il disco e il trasferimento di file è in esecuzione Ubuntu 13.10. Ho installato gsutil usando le istruzioni pip per Debian e Ubuntu.
Sto fraintendendo come si suppone che i trasferimenti di riassunto di gsutil funzionino? In caso contrario, qualsiasi diagnosi e correzione per ottenere il corretto comportamento di ripresa? Grazie in anticipo!
Grazie! Questo ha risolto il mio problema. Questi file erano ben più di 2 MB, quindi o la modalità di trasferimento ripristinabile non è quella che pensavo fosse, o qualcosa è andato storto, o la mia versione di gsutil era scaduta/sincronizzata con la documentazione online (forse perché ho usato pip) . Felice di avere una soluzione! – MPBall