Qualcuno può dare una spiegazione di alto livello ad un principiante su come funziona Hadoop?

Hadoop è costituito da un numero di componenti, ciascuno dei sottoprogetti del progetto Apache Hadoop. Due dei principali sono lo Hadoop Distributed File System (HDFS) e lo MapReduce framework.

L'idea è che è possibile collegare in rete un certo numero di computer standard per creare un cluster. HDFS viene eseguito sul cluster. Man mano che si aggiungono dati al cluster, questo viene suddiviso in blocchi/blocchi di grandi dimensioni (in genere 64 MB) e distribuiti attorno al cluster. HDFS consente di replicare i dati per consentire il ripristino da guasti hardware. Si aspetta quasi dei guasti hardware dal momento che è pensato per funzionare con hardware standard. HDFS si basa sul documento Google sul loro file system distribuito GFS.

Il framework Hadoop MapReduce viene eseguito sui dati memorizzati su HDFS. L'obiettivo "Jobs" di MapReduce è quello di fornire una capacità di elaborazione basata su valori/valori in un modo molto parallelo. Poiché i dati vengono distribuiti sul cluster, è possibile suddividere un lavoro MapReduce per eseguire molti processi paralleli sui dati memorizzati nel cluster. Le parti Map di MapReduce funzionano solo sui dati che possono vedere, cioè sui blocchi di dati sulla macchina particolare su cui è in esecuzione. The Reduce riunisce l'output di Maps.

Il risultato è un sistema che fornisce una capacità di elaborazione batch altamente parallela. Il sistema funziona bene, poiché è sufficiente aggiungere altro hardware per aumentare la capacità di archiviazione o ridurre il tempo necessario per l'esecuzione di un lavoro MapReduce.

Alcuni link:

fonte

2010-03-23 02:49:14

Qualcuno può dare una spiegazione di alto livello ad un principiante su come funziona Hadoop?

risposta

Problemi correlati