Sto iniziando ad avventurarmi in codice distribuito e sto avendo problemi a capire quale soluzione si adatta alle mie esigenze in base a tutte le cose là fuori. Fondamentalmente ho una lista python di dati che ho bisogno di elaborare con una singola funzione. Questa funzione ha alcuni cicli annidati ma non richiede troppo tempo (circa un minuto) per ciascun elemento nell'elenco. Il mio problema è che la lista è molto grande (3000+ articoli). Sto osservando il multiprocessing ma penso di voler sperimentare con il multi-server che lo elabora (perché idealmente, se i dati diventano più grandi, voglio essere in grado di avere la possibilità di aggiungere più server durante il lavoro per renderlo più veloce) .Suggerimenti sulla distribuzione di dati/codice Python su nodi worker?
Io fondamentalmente alla ricerca di qualcosa che posso distribuire questo elenco di dati attraverso (e non super necessaria ma sarebbe bello se potessi distribuire il mio codice di base attraverso questo anche)
Quindi la mia domanda è, quale pacchetto può Io uso per ottenere questo? Il mio database è hbase, quindi ho già eseguito hasdoop (mai usato hadoop, ma lo uso solo per il database). Ho guardato il sedano e contorto, ma sono confuso su cui si adatta alle mie esigenze.
Qualche suggerimento?