ho lanciato un lavoro scintilla con queste impostazioni (tra gli altri):Perché è possibile avere "risultati serializzati di n attività (XXXX MB)" maggiore di `spark.driver.memory` in pyspark?
spark.driver.maxResultSize 11GB
spark.driver.memory 12GB
ero il debug il mio pyspark
lavoro, ed è tenuto a darmi l'errore:
serialized results of 16 tasks (17.4 GB) is bigger than spark.driver.maxResultSize (11 GB)
Così, ho aumentato la spark.driver.maxResultSize
a 18 G
nelle impostazioni di configurazione. E ha funzionato !!
Ora, questo è interessante perché in entrambi i casi SMALLER rispetto ai risultati serializzati restituiti.
Perché è consentito? Suppongo che questo non sia possibile perché i risultati serializzati erano quando eseguivo il debug, che è maggiore della dimensione del driver, che è 12 GB
, come mostrato sopra?
Com'è possibile?
Solo curioso - Perché il downvote? – simple