2010-06-02 7 views
6

Sto iniziando un nuovo progetto Hadoop che avrà più job hadoop (e quindi più file jar). Usando mercurial per il controllo del codice sorgente, mi chiedevo quale sarebbe il modo ottimale di organizzare la struttura del repository? Ogni lavoro dovrebbe vivere in un repository separato o sarebbe più efficiente tenerli nello stesso, ma scomporre in cartelle?Organizzazione deposito per progetto Hadoop

risposta

1

Se si sta eseguendo il pipeline dei lavori Hadoop (l'output di uno è l'input di un altro), ho trovato che è meglio conservarne la maggior parte nello stesso repository poiché tendo a generare molti metodi comuni che posso utilizzare nei vari lavori MR.

Personalmente, tengo i lavori di streaming in un repository separato dai miei lavori più tradizionali poiché generalmente non ci sono dipendenze.

Stai pianificando l'utilizzo di DistributedCache o di lavori in streaming? Potresti volere una directory separata per i file che hai distribuito. Hai davvero bisogno di un lavoro JAR per Hadoop? Ho trovato che non lo faccio.

Se si forniscono maggiori dettagli su ciò che si intende fare con Hadoop, posso vedere cos'altro posso suggerire.

+0

Grazie Eric. Non ho intenzione di fare ancora alcun flusso di lavoro (potrebbe arrivare in futuro, ma non ancora). Il progetto è molto giovane e in qualche modo in crescita, quindi sono curioso di sapere come impostare una buona base in grado di supportare la crescita di ulteriori progetti. –