Ho appena creato l'elenco python di range(1,100000)
.Spark con python: come risolvere Stage x contiene un'attività di dimensioni molto grandi (xxx KB). La dimensione massima dell'attività consigliata è 100 KB
Uso SparkContext fatto le seguenti operazioni:
a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])
c = a.zip(b)
>>> [(1, 1), (2, 2), -----]
sum = sc.accumulator(0)
c.foreach(lambda (x, y): life.add((y-x)))
che dà avvertimento come segue:
ARN TaskSetManager: Fase 3 contiene un compito di dimensioni molto grandi (4644 KB). La dimensione massima dell'attività consigliata è 100 KB.
Come risolvere questo avviso? C'è un modo per gestire le dimensioni? E inoltre, influenzerà la complessità temporale dei big data?
Prima di tutto cos'è esattamente la "vita"? Intendevi accumulatore 'somma'? In ogni caso, non dovrebbe essere un problema qui. Vedi [questo] (http://mail-archives.us.apache.org/mod_mbox/spark-user/201407.mbox/%[email protected].com%3E) per i dettagli. – zero323