Dall'interfaccia utente di Spark. Cosa significa saltare?Che cosa significa "Stage saltato" significa nell'interfaccia utente web di Apache Spark?
52
A
risposta
67
genere significa che i dati sono stati recuperato dalla cache e non vi era alcuna necessità di ri-eseguire dato stadio. È coerente con il tuo DAG che mostra che il passaggio successivo richiede il mescolamento (reduceByKey
). Ogni volta che c'è mischia coinvolto Spark automatically caches generated data:
Shuffle genera anche un gran numero di file intermedi su disco. A partire da Spark 1.3, questi file vengono conservati fino a quando i corrispondenti RDD non vengono più utilizzati e vengono raccolti. Questo è fatto in modo che i file shuffle non debbano essere ricreati se il lignaggio viene ricalcolato.
Ottima risposta. Se vuoi saperne di più sulla semantica delle fasi "ignorate" e "in attesa" nell'interfaccia utente web, consulta https://github.com/apache/spark/pull/3009, la richiesta di pull che ha introdotto per prima questi concetti. Quella PR è anche una lettura interessante se sei curioso di sapere come le fasi saltate/in attesa interagiscono con le barre di avanzamento a livello di lavoro. –