2016-01-03 3 views

risposta

67

genere significa che i dati sono stati recuperato dalla cache e non vi era alcuna necessità di ri-eseguire dato stadio. È coerente con il tuo DAG che mostra che il passaggio successivo richiede il mescolamento (reduceByKey). Ogni volta che c'è mischia coinvolto Spark automatically caches generated data:

Shuffle genera anche un gran numero di file intermedi su disco. A partire da Spark 1.3, questi file vengono conservati fino a quando i corrispondenti RDD non vengono più utilizzati e vengono raccolti. Questo è fatto in modo che i file shuffle non debbano essere ricreati se il lignaggio viene ricalcolato.

+13

Ottima risposta. Se vuoi saperne di più sulla semantica delle fasi "ignorate" e "in attesa" nell'interfaccia utente web, consulta https://github.com/apache/spark/pull/3009, la richiesta di pull che ha introdotto per prima questi concetti. Quella PR è anche una lettura interessante se sei curioso di sapere come le fasi saltate/in attesa interagiscono con le barre di avanzamento a livello di lavoro. –