Correggetemi se ho torto, ma la mia comprensione è che Hadoop non usa MPI per la comunicazione tra diversi nodi.Perché Hadoop non è implementato usando MPI?
Quali sono i motivi tecnici?
Potrei azzardare alcune ipotesi, ma non so abbastanza di come MPI sia implementato "sotto il cofano" per sapere se ho ragione o no.
Vieni a pensarci, non sono del tutto familiare con gli interni di Hadoop. Comprendo il framework a livello concettuale (map/combine/shuffle/reduce e come funziona a un livello elevato) ma non conosco i dettagli di implementazione nitty gritty. Ho sempre pensato che Hadoop trasmettesse strutture di dati serializzate (forse GPBs) su una connessione TCP, ad esempio durante la fase shuffle. Fammi sapere se questo non è vero.
Quindi, stai dicendo che la ragione non è inerente all'MPI paradigma stesso, solo implementazioni attuali? Quindi sembra che attualmente i messaggi di rete corrotti oi nodi volubili possano far cadere un sistema MPI. Diciamo che entrambi questi fattori sono stati rimossi. Ci sarebbe qualche motivo per non implementare Hadoop usando ancora MPI? – artif
Penso che questa sia una risposta ragionevole. –