2

Ich möchte mehrere Worker-Daemons auf einem einzelnen Computer ausführen. Nach damienfrancois's Antwort auf what is the minimum number of computers for a slurm cluster kann es getan werden. Problem ist zur Zeit kann ich nur 1 Arbeiterdämon auf einem Computer ausführen. zum BeispielMehrere Worker-Daemons ausführen SLURM

Wenn ich laufen

sudo slurmd -N linux1 -cDvv 
sudo slurmd -N linux2 -cDvv 

linux1 untergeht, wenn ich linux2 laufen. Ist es möglich, mehrere Arbeitsdämonen auf einer Maschine auszuführen? Hier ist meine slurm.conf Datei

Antwort

3

als Ihre Absicht nur zu sein scheint, das Verhalten von Slurm testen, würde ich Ihnen empfehlen, den Front-End-Modus zu verwenden, wo Sie Dummy-Rechenknoten in der gleichen Maschine erstellen können.

In ihrem FAQ, haben Sie mehr Details, aber im Grunde müssen Sie die Installation mit diesem Modus arbeiten konfigurieren:

./configure --enable-front-end 

und konfigurieren Sie den Knoten in slurm.conf

NodeName=test[1-100] NodeHostName=localhost 

In diesem Handbuch erklären sie auch, wie man mehr als einen echten Daemon im selben Knoten durch Ändern der Ports startet, aber für meine Testzwecke war es nicht notwendig.

Viel Glück!

+0

Ich konfigurierte Installation wie oben erwähnt, aber die immer noch nur ein Arbeiter-Daemon läuft. –

+0

@PaulSchimmer Ja! Aber es emuliert alle Knoten. Versuchen Sie, eine 'sinfo' auszuführen, und Sie werden sehen. – siserte

+0

Ich bleibe mit folgendem Fehler konfrontiert: 'Fehler beim Verbinden slurm Stream-Socket bei 127.0.1.1: : Verbindung abgelehnt' was könnte der Grund sein? – Alper

0

Ich habe das gleiche Problem wie Sie, ich löste es durch Ändern der Pfade von Protokolldateien wie dort erwähnt multiple slurmd support. In Ihrem slurm.conf zum Beispiel

SlurmdLogFile=/var/log/slurm/slurmd.log 
SlurmdPidFile=/var/run/slurmd.pid 
SlurmdSpoolDir=/var/spool/slurmd 

muss

sein
SlurmdLogFile=/var/log/slurm/slurmd.%n.log 
SlurmdPidFile=/var/run/slurmd.%n.pid 
SlurmdSpoolDir=/var/spool/slurmd.%n 

Jetzt können Sie mehrere slurmd starten.

Hinweis: Ich habe versucht, mit Ihrem Slurm conf, ich denke, einige Parameter fehlen wie definiert zwei NodeName anstelle von einem und fügen Sie den Port für jeden Knoten verwenden. Dies funktioniert für mich

# COMPUTE NODES 
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN 
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN 
# PARTITIONS 
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP 
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP