2012-07-03 13 views
7

Sto cercando uno strumento per il flusso di lavoro per eseguire complessi lavori di riduzione delle mappe. Ho in mente Oozie ma voglio anche esplorare Cascading. Esiste un codice di esempio o un esempio che concatena i processi M/R esistenti utilizzando l'API cascading? Inoltre, puoi fornire il confronto Oozie vs Cascading?Comaparison dello strumento del flusso di lavoro: Oozie Vs Cascading

risposta

7

Cascading e Oozie non sono nella stessa categoria.

Oozie è uno schedulatore di flusso di lavoro.

Cascading è un'API per la creazione di flussi di lavoro. È agnostico sugli scheduler, vale a dire, dovrebbe essere eseguito con qualsiasi sistema di pianificazione che si utilizza.

C'è forse un po 'di confusione perché i documenti di Oozie menzionano un "DAG", ed entrambi girano in cima a Hadoop.

Inoltre, Cascading ha una nozione di "disponibilità dei dati" nel supporto del checkpoint, che è supportato in Oozie, anche se in modo diverso.

0

Personalmente giocare con entrambi in certa misura, ciò che ho trovato interessante con cascata è

1) concisa ed espressiva in termini di parole chiave semplici come flusso, rubinetto, tubo ecc,

2) straordinario approccio basato su TDD per lo sviluppo e la ricerca locale

3) bella vista planner (file .dot) e sarà utile una volta che il progetto è cresciuto, quindi la manutenzione è semplice.

4) Approccio basato su DSL utilizzando groovy, scala, cloujre. quindi non c'è bisogno di preoccuparsi di imparare una nuova lingua o piuttosto di ricorrere a questo.

5) distribuzione semplice del cloud (ad esempio supporto Amazon come distribuzione raw jar).

6) è possibile chiamare qualsiasi cosa come un maiale o un alveare o un altro vaso MR puro purché espongano l'API java.

7) straordinario per lavori correlati a ML e PNL.