2014-10-15 5 views

risposta

2

Ogni fase viene elaborata contemporaneamente nel cluster. Quindi, se hai un lavoro che può essere svolto contemporaneamente, potresti considerare di avere tutto nello stesso passo (ogni fase può avere 1 o più lavori Hadoop).

In genere è possibile utilizzare i passaggi quando si desidera assicurarsi che TUTTA l'elaborazione che deve essere eseguita per il passaggio successivo sia completata prima di passare al passaggio successivo. Un buon esempio di questo potrebbe essere quando si ha a che fare con dati crittografati, dove poter avere un passaggio per decodificare i dati, un passaggio per elaborare i dati e un ulteriore passaggio per ricodificare i dati prima della persistenza.

+0

Ok. Supponiamo che tu voglia eseguire due diversi lavori sulla decrittografia/crittografia di diverse origini dati. In tal caso, vorrai eseguire i due diversi lavori in parallelo. Vuoi a quel punto creare due cluster EMR? –

+0

@SeanBollin Direi che dipende da una serie di fattori. I dati sono correlati in modo tale che i dati di un "lavoro" siano necessari all'altro? (in caso affermativo, è necessario lo stesso cluster, a meno che non si vogliano mantenere i dati in mezzo). Che ha senso dal punto di vista economico? I diversi lavori potrebbero richiedere dimensioni di cluster diverse per completare il lavoro in un intervallo di tempo accettabile. È meglio eseguire un lavoro più piccolo su un cluster sovradimensionato in tempi più brevi o su un cluster di dimensioni corrette e un tempo accettabile. Avete un cluster dedicato "sempre attivo" (ad esempio utilizzando istanze riservate)? Devi trovare ciò che funziona –