Mi piacerebbe sapere come collectAsMap funziona in Spark. Più nello specifico mi piacerebbe sapere dove si svolgerà l'aggregazione dei dati di tutte le partizioni? L'aggregazione avviene in master o in lavoratori. Nel primo caso ogni lavoratore invia i propri dati sul master e quando il master raccoglie i dati da ciascun lavoratore, il master aggregherà i risultati. Nel secondo caso i lavoratori sono responsabili di aggregare i risultati (dopo aver scambiato i dati tra di loro) e successivamente i risultati verranno inviati al master.Spark CollectAsMap
È fondamentale per me trovare un modo in cui il master sia in grado di raccogliere i dati da ciascuna partizione separatamente, senza che i lavoratori scambino dati.
Nella tua terminologia Credo che si intende dire che driver e non padrone. Il driver è dove i risultati della raccolta verranno aggregati e inviati dal cluster Spark. – Rich