2013-04-18 11 views
8

qualcuno potrebbe farmi sapere come correggere le repliche mancanti?Hadoop: il risultato FSCK mostra le repliche mancanti

========================================= ==============================

dimensione totale: 3.447.348,383 mila B

dirs totali: 120

file totali: 98

totali blocchi (convalidati): 133 (. media dimensione del blocco 25.919.912 B)

minimamente replicati blocchi: 133 (100,0%)

Più replicati blocchi: 0 (0,0%)

Under replicati blocchi: 21 (15,789,474 mila%)

blocchi Mis replicate: 0 (0,0%) Fattore di replica

predefinita: 3

replica blocco medio: 2.3834586

blocchi corrotti: 0

repliche mancanti: 147 (46,37,224 mila%)

numero di dati-nodi: 3

numero dei rack: 1

================= ================================================== =========

come da guida indefinito,

blocchi corrotti o mancanti sono la principale causa di preoccupazione, in quanto significa che i dati è stato perduto. Per impostazione predefinita, fsck lascia i file con blocchi corrotti o mancanti, ma puoi dire a di eseguire una delle azioni seguenti:

• Spostare i file interessati nella directory/lost + found in HDFS, utilizzando il - opzione di spostamento. I file sono suddivisi in catene di blocchi contigui per facilitare gli sforzi di salvataggio che è possibile provare .

• Eliminare i file interessati, utilizzando l'opzione -delete. I file non possono essere ripristinati dopo l'eliminazione dello .

Qui la mia domanda è come scoprire i file interessati? Ho già lavorato con Hive per ottenere le uscite richieste senza alcun problema. influirà sulle prestazioni/velocità dell'elaborazione della query.

saluti,

Raj

risposta

12

repliche mancanti devono essere auto-guarigione nel tempo.Tuttavia, se hai intenzione di spostarli lost + found, è possibile utilizzare:

hadoop fsck/-move 

o cancellarli con:

hadoop fsck/-delete 

Se si desidera solo per identificare i file con il sotto-replicato blocchi, utilizzare:

hadoop fsck/-files -blocks -locations 

Questo vi darà molti dettagli, incluso l'elenco dei conteggi di replica dei blocchi previsti/effettivi.

+0

Quindi le repliche mancanti non sono un problema secondo te, non è vero? influirà sulle prestazioni/velocità dell'elaborazione della query. – Raj

+1

Finché non si mancano tutte le repliche per un determinato blocco, le repliche mancanti possono essere rigenerate dalle repliche rimanenti. Se un file ha uno o più blocchi mancanti di tutte le repliche, quel file è corrotto e non può essere recuperato. Puoi trovare una buona spiegazione nel libro "Hadoop Operations" di Eric Sammer: http://books.google.com/books?id=TQqSwRScVhoC&printsec=frontcover&dq=sammer+hadoop+operations&hl=en&sa=X&ei=r652UczYCsKT2QXcm4GICg&ved=0CDkQ6AEwAA#v=onepage&q&f = false – highlycaffeinated

+1

Salve, se eseguo hadoop fsck/-delete, cosa succede internamente? puoi elaborare per favore. –