Ho un paio di migliaia di lavori da eseguire su un cluster slurm con 16 nodi. Questi lavori dovrebbero essere eseguiti solo su un sottoinsieme dei nodi disponibili di dimensione 7. Alcune attività sono parallelizzate, quindi utilizzano tutta la potenza della CPU di un singolo nodo mentre altre sono a thread singolo. Pertanto, più lavori dovrebbero essere eseguiti contemporaneamente su un singolo nodo. Nessuna delle attività dovrebbe essere generata su più nodi.slurm: utilizzare qualsiasi nodo da nodelist
Attualmente invio ciascuno dei posti di lavoro con:
sbatch --nodelist=myCluster[10-16] myScript.sh
Tuttavia questo parametro rende slurm aspettare fino al lavoro inoltrato termina e lascia quindi 3 nodi completamente inutilizzata e, a seconda del compito (multi o single-threaded), anche il nodo attualmente attivo potrebbe essere a basso carico in termini di capacità della CPU.
Quali sono i parametri migliori di sbatch
che forza lo slurm per eseguire più processi contemporaneamente sui nodi specificati?
Presumendo che tu non sia l'amministratore. Altrimenti limiti e associazioni sono la strada da percorrere. – damienfrancois
Con "associazioni" intendi "prenotazioni" nel vocabolario SLURM? – Faber
No Intendo [associazioni] (http://slurm.schedmd.com/accounting.html) che è il termine utilizzato da Slurm nel contesto di account, qualità dei servizi, partizioni, ecc. Per impostare i limiti. – damienfrancois