Sono in fase di pianificazione di un cluster multivoda Hadoop
in un ambiente basato su Docker
. Quindi dovrebbe essere basato su un sistema virtualizzato leggero e facile da usare. L'architettura corrente (relativa alla documentazione) contiene 1 nodo principale e 3 nodi slave. Questa macchina host utilizza il filesystem HDFS
e KVM
per la virtualizzazione. L'intero cloud è gestito da Cloudera Manager
. Ci sono diversi moduli Hadoop installati su questo cluster. C'è anche un servizio di caricamento dati NodeJS
. Questa volta dovrei creare l'architettura Docker
basata. Ho letto diversi tutorial e ho alcune opinioni, ma anche domande aperte.Cluster Hadoop a più nodi con finestra mobile
A. Cosa ne pensi, è https://github.com/Lewuathe/docker-hadoop-cluster una buona base per il mio progetto? Ho trovato anche un ufficiale image, ma è single-node.
B. In che modo i requisiti di sistema cambiano se desidero farlo in un unico contenitore? Sarebbe fantastico, perché questa architettura dovrebbe funzionare in luoghi diversi, quindi i cambiamenti possono essere facilmente trasferiti tra queste posizioni. La sincronizzazione tra questi cosiddetti cloni sarebbe importante.
C. Avete altre idee, forse le migliori pratiche?
16 GB di RAM sul laptop? Praticamente, quindi dovrei usare Amazon Machine Image. –
Esatto - richiede una macchina piuttosto robusta. Consigliamo 16 GB di RAM, ma occorrono almeno 10 GB di RAM dedicata per eseguire una configurazione minima multi-nodo (ad esempio un cluster a due nodi di una singola distribuzione Hadoop) o più distribuzioni sul laptop. – BlueData
Ma come fai notare, puoi usare invece l'immagine della macchina di Amazon. – BlueData