6

Come posso installare automaticamente le librerie Python sul mio cluster Dataproc all'avvio del cluster? Ciò mi risparmierebbe il problema di accedere manualmente ai nodi master e/o worker per installare manualmente le librerie di cui ho bisogno.Come installare automaticamente le librerie Python sull'avvio del cluster Dataproc?

Sarebbe bello sapere anche se questa installazione automatica potrebbe installare le cose solo sul master e non sui lavoratori.

risposta

6

Le azioni di inizializzazione sono il modo migliore per farlo. Le azioni di inizializzazione sono script di shell che vengono eseguiti quando viene creato il cluster. Questo ti permetterà di personalizzare il cluster, come l'installazione di librerie Python. Questi script devono essere archiviati in Google Cloud Storage e possono essere utilizzati durante la creazione di cluster tramite Google Cloud SDK o Google Developers Console.

Ecco un esempio di operazione di inizializzazione per installare Python pandas sulla creazione di cluster solo sul nodo master.

#!/bin/sh 
ROLE=$(/usr/share/google/get_metadata_value attributes/role) 
if [[ "${ROLE}" == 'Master' ]]; then 
    apt-get install python-pandas -y 
fi 

Come si può vedere da questo script, è possibile discernere il ruolo di un nodo con /usr/share/google/get_metadata_value attributes/role e poi eseguire l'azione in particolare sulla (lavoratore o) nodo master.

si può vedere la Google Cloud Dataproc Documentation per maggiori dettagli

documentazione
+0

Dataproc è un po 'fuori moda. È necessario eseguire '' '/ usr/share/google/get_metadata_value attributes/dataproc-role''' per ottenere la stringa" Master ". Comando '' '/ usr/share/google/get_metadata_value attributes /' '' fornisce una lista di attributi disponibili. – dzejdzej