Ho una domanda di base riguardanti il file scrive e legge in HDFS.Hadoop: File HDFS Scrive & Legge
Per esempio, se sto scrivendo un file, utilizzando le configurazioni di default, Hadoop ha al suo interno di scrivere ogni blocco a 3 nodi di dati. La mia comprensione è che per ogni blocco, prima il client scrive il blocco sul primo nodo di dati nella pipeline che informerà il secondo e così via. Una volta che il terzo nodo dati riceve correttamente il blocco, fornisce un riconoscimento al nodo dati 2 e infine al client tramite il nodo Dati 1. Solo dopo aver ricevuto il riconoscimento per il blocco, la scrittura viene considerata valida e il client procede alla scrittura il prossimo blocco.
Se questo è il caso, allora non è il tempo impiegato per scrivere ogni blocco è più di un file di scrittura tradizionale, a causa -
- il fattore di replica (di default è 3) e
- la il processo di scrittura sta avvenendo sequenzialmente blocco dopo blocco.
Per favore correggimi se ho torto nella mia comprensione. Inoltre, le seguenti domande qui sotto:
- mia comprensione è che File lettura/scrittura in Hadoop non ha alcun parallelismo e il meglio che può eseguire è lo stesso in un file tradizionale di lettura o scrittura (cioè se la replica è impostato su 1) + un overhead coinvolto nel meccanismo di comunicazione distribuito.
- parallelismo viene fornita solo durante la fase di elaborazione dei dati tramite Mappa Ridurre, ma non durante il file in lettura/scrittura da un cliente.
Così efficace, un l'operazione di scrittura o lettura in hadoop sta avendo un rendimento più lento rispetto a un file di lettura/scrittura tradizionale. Inoltre, non importa quale sia la dimensione del cluster. Maggiore è il fattore di replicazione, maggiore è il tempo necessario per scrivere sui dati. Mi sto solo chiedendo come copiare i dati nell'ordine dei petabyte da/a un cluster hadoop con prestazioni così lente. Il solo raggiungimento delle prestazioni durante l'elaborazione non è sufficiente da solo, poiché saremo comunque condizionati dalla velocità con cui i dati vengono copiati in/out di hadoop. –