come pagina GitHub di tez dice, Tez è molto semplice e il suo cuore ha due soli componenti:Come wordCount mapRiduce lavori, eseguito su cluster di filati hadoop con apache tez?
Il motore gasdotto di elaborazione dati, e
un maestro per il trattamento dell'informazione applicazione, dove-by si può mettere insieme arbitrario di elaborazione dati 'compiti' sopra descritta in una task-DAG
Bene la mia prima domanda è, come esistente MapReduce lavori come wordcount che esiste in tez-examples.jar, convertito in task-DAG? dove? o loro non ...?
e il mio secondo e più importante domanda è su questa parte:
'compito' Ogni nel tez ha la seguente:
- ingresso di consumare coppie chiave/valore da.
- Processore per elaborarli.
- Output per raccogliere le coppie chiave/valore elaborate.
Chi è responsabile della suddivisione dei dati di input tra i task tez? È il codice che l'utente fornisce o è Yarn (il gestore delle risorse) o anche il tez stesso?
La domanda è la stessa per la fase di uscita. Grazie in anticipo
se tez non controlla la struttura dati sottostante, partizionamento ... allora cosa significa avere bordi? Come si preparano i dati per i vertici? – SonOfSun