2016-03-18 37 views
5

Dopo aver inviato un'applicazione COMPS, ho ricevuto il seguente messaggio di errore e l'applicazione non è stata eseguita.COMPS - Nodi già riempiti errore

MPI_CMD=mpirun -timestamp-output -n 1 -H s00r0 
/apps/COMPSs/1.3/Runtime/scripts/user/runcompss 
--project=/tmp/1668183.tmpdir/project_1458303603.xml 
--resources=/tmp/1668183.tmpdir/resources_1458303603.xml 
--uuid=2ed20e6a-9f02-49ff-a71c-e071ce35dacc 
/apps/FILESPACE/pycompssfile arg1 arg2 : -n 1 -H s00r0 
/apps/COMPSs/1.3/Runtime/scripts/system/adaptors/nio/persistent_worker_starter.sh 
/apps/INTEL/mkl/lib/intel64 null 
/home/myhome/kmeans_python/src/ true 
/tmp/1668183.tmpdir 4 5 5 s00r0-ib0 43001 43000 true 1 
/apps/COMPSs/1.3/Runtime/scripts/system/2ed20e6a-9f02-49ff-a71c-e071ce35dacc : -n 1 -H s00r0 
/apps/COMPSs/1.3/Runtime/scripts/system/adaptors/nio/persistent_worker_starter.sh 
/apps/INTEL/mkl/lib/intel64 null 
/home/myhome/kmeans_python/src/ true 
/tmp/1668183.tmpdir 4 5 5 s00r0-ib0 43001 43000 true 2 
/apps/COMPSs/1.3/Runtime/scripts/system/2ed20e6a-9f02-49ff-a71c-e071ce35dacc 

-------------------------------------------------------------------------- 
All nodes which are allocated for this job are already filled. 
-------------------------------------------------------------------------- 

Sto usando COMPS 1.3.

Perché è così felice?

+0

Potresti pubblicare ulteriori informazioni su quale comando hai eseguito? –

+0

Ho modificato la mia domanda per includere il comando. –

risposta

5

Si sta tentando di eseguire master e worker nello stesso nodo. Il COMPS 1.3 in cluster con l'adattatore NIO (opzione predefinita) utilizza mpirun per generare i processi master e di lavoro nei diversi nodi del cluster e mpirun installato nel cluster non consente di farlo.

Le opzioni per risolverlo sono i seguenti:

  1. Non si specifica --tasks_in_master = nel comando enqueue_compss.
  2. Si esegue con GAT adattatore (--comm = integratedtoolkit.gat.master.GATAdaptor) che ha più testa

Successivo COMPSS release del software utilizzerà il comando di deporre le uova, che è disponibile nelle diversi gestori di risorse del cluster (come blaunch, srun) che deve risolvere questo problema

+2

Perfetto! Ho risolto il mio problema usando l'adattatore GAT. Tuttavia, poiché comprendo che l'adattatore NIO è più efficiente, aggiornerò i COMPS non appena verrà pubblicata la prossima versione. Grazie per la tua risposta rapida e precisa. –