Programme im Batchbetrieb starten

Job mit Submit-Skript starten

Mit dem Befehl sbatch myscript.sh wird ein Submit-Skript für eine spätere Ausführung an den Workload Manager SLURM übergeben, es folgt eine Bestätigung mit Jobnummer:

 uk00123@its-cs1:/home/users/000/uk00123> sbatch myscript.sh  
Submitted batch job 5403542

Job abbrechen

Sie können einen Job mit scancel <JobID> vorzeitig abbrechen.

uk00123@its-cs1:/home/users/000/uk00123> scancel 5403542


Wenn Sie einen Namen für Ihre Jobs verwenden, können mit scancel --jobname <JobName> alle laufenden Jobs abgebrochen werden, die diesen Namen haben:

uk00123@its-cs1:/home/users/000/uk00123> scancel --jobname "My Testjob"


Mit dem folgenden Befehl werden ALLE eigenen Jobs abgebrochen. Setzen Sie diesen nur ein, wenn Sie sich sicher sind!

scancel -u $USER

Informationen über laufende Jobs

Der Befehl squeue gibt Informationen über wartende und bereits laufende Batch-Jobs aus. Beendete Jobs werden nicht angezeigt.

squeue -u uk00123 gibt Informationen über alle Jobs des angegebenen Users aus. Für die eigenen Jobs kann man statt dem UniAccount einfach $USER schreiben:

uk00123@its-cs1:/home/users/000/uk00123> squeue -u $USER   
JOBID PARTITION        NAME    USER ST TIME NODES NODELIST(REASON)
5403542  minijobs myscript.sh uk00123  R 2:06     1 its-cs194
5403547  minijobs myscript.sh uk00123  R 1:02     1 its-cs256


squeue -j <job-id_list> listet nur die Jobs auf, deren IDs (durch Kommas getrennt) angegeben werden:

uk00123@its-cs1:/home/users/000/uk00123> squeue -j 5403542,5403547  
JOBID PARTITION        NAME    USER ST TIME NODES NODELIST(REASON)
5403542  minijobs myscript.sh uk00123  R 2:06     1 its-cs194
5403547  minijobs myscript.sh uk00123  R 1:02     1 its-cs256


Wenn das Konsolenfenster breit genug ist, kann mit squeue -l die maximale Joblaufzeit der aktuell laufenden Jobs angezeigt werden:

uk00123@its-cs1:/home/users/000/uk00123> squeue -l -u $USER  
JOBID PARTITION        NAME    USER   STATE TIME TIME_LIMIT NODES NODELIST(REASON)
5403542  minijobs myscript.sh uk00123 RUNNING 2:06    1:00:00     1 its-cs194
5403547  minijobs myscript.sh uk00123 RUNNING 1:02    1:00:00     1 its-cs256


Mit squeue -p PARTITIONSNAME werden nur die Jobs gezeigt, die in dieser Partition eingereicht wurden. Vorsicht! Da sich die Partitionen überschneiden ist es beispielsweise möglich, dass in einer Partition kein Job angezeigt wird, obwohl alle Nodes der Partition arbeiten.

Syntax:

squeue [options]

-u <user_list>

print jobs from list of users

-i <seconds>

repeatedly gather and report requested
information

-j <job_id_list>

print list of job IDs

-n <name_list>

print jobs or job steps having one of the
specified names

--start

report expected start time and resources
to be allocated for pending jobs

Detaillierte Informationen über einen Job/Node/Partition

Mit scontrol show job <JobID> können der aktuelle Status und viele weitere Informationen über den Job angezeigt werden:

uk00123@its-cs1:/home/users/000/uk00123> scontrol show job 5403542


Als wichtigste Information wird der Status des Jobs (JobState) ausgegeben. Solange der Job in der Queue wartet, bis die Ressourcen verfügbar sind und die Allokation erstellt wird, hat er den Status PENDING. Befindet er sich dann in der Ausführung ist der Status RUNNING.

Nach erfolgreichem Abschluss des Jobs ist der Status COMPLETED, andernfalls FAILED oder TIMEOUT. Letzteres bedeutet, dass SLURM nach der vom User im Submit-Script angegebenen Maximalzeit den Job abgebrochen hat, weil dieser noch nicht fertig war.

Die Standard-Ausgaben und Fehlermeldungen des Programms befinden sich auf Grund der Parameter im Submit-Skript --output und --error in den dort definierten Dateien (z.B. slurm.its-cs194.5403542.out und slurm.its-cs194.5403542.err)

Syntax:

scontrol show ENTITY_ID

job <job_id>

print job informations

node <name>

print node informations

partition <name>

print partition informations

reservation

print list of reservations