Utilizzando il mrjob per eseguire il codice Python su Amazon Elastic MapReduce ho trovato con successo un modo per aggiornare l'immagine EMP numpy e scipy.Numpy and Scipy con Amazon Elastic MapReduce
Esecuzione da console i seguenti comandi funzionano:
tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz
gzip py_bundle.tar
python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.1.tar.gz --bootstrap-python-package scipy-0.9.0.tar.gz > output.txt
Questa bootstrap con successo l'ultima NumPy e SciPy nell'immagine e funziona perfettamente. La mia domanda è una questione di velocità. Questo richiede 21 minuti per installarsi su una piccola istanza.
Qualcuno ha idea di come accelerare il processo di aggiornamento di numpy e scipy ?
Il tuo problema è che è la piccola istanza che è lenta. Penso che non vedrai alcuna reale accelerazione a meno che non ti sposti in istanze Amazon più grandi. Questo è di 21 minuti al di sopra dei ~ 5-6 minuti che normalmente richiede all'EC2 di far girare le istanze? – ely
Concordo sul fatto che la comunicazione con lo spin up originale richieda molto tempo. Qualcuno nella comunità mrjob ha consigliato di eseguire questa installazione per un'istanza di lavoro, quindi di utilizzare ssh per accedere all'istanza worker, scaricare la directory di installazione completata. Poi ho appena passato la directory di installazione completata come zip con i miei file. Python sceglie di utilizzare NumPy e SciPy locali invece delle versioni installate di hadoop. – jtman