Knoten und Partitionen

Übersicht

Server in einem Cluster werden als "Nodes", also Knoten bezeichnet. Die Nodes des Linux-Clusters sind in Partitionen eingeteilt. Wenn Sie etwas auf dem Cluster berechnen lassen wollen, müssen Sie angeben, aus welcher Partition die Nodes kommen sollen. Folgende Partitionen stehen zur Auswahl:

Partitionen

Partition

Beschreibung

minijobs

Hochschulöffentliche Partition für alle Nutzer. Maximal 60 Minuten Rechenzeit pro Auftrag. Maximial 100 gleichzeitig laufende Jobs pro Nutzer. Doppelprozessorsysteme mit je 2 16-Kern Opteron Prozessoren, 32GB-128GB Arbeitsspeicher, teilweise Infiniband-Vernetzung für Jobs mit mehreren Knoten - bei Bedarf im SubmitScript "nur Nodes mit Infiniband" anfordern. Da die Nodes aus "public" und "exec" sich ebenfalls in dieser Partition befinden, haben Nutzer über diese Partition Vorrang, weil hier eine niedrigere maximale Laufzeit möglich ist

public

Hochschulöffentliche Partition für alle Nutzer. Maximal 48 Stunden Rechenzeit pro Auftrag. Doppelprozessorsysteme mit je 2 16-Kern Opteron Prozessoren aus dem Jahr 2012, 32GB-128GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Knoten. Da sich diese Nodes auch gleichzeitig in der Parition exec befinden, haben Nutzer welche die Nodes über die exec Partition nutzen Vorrang, weil dort deutlich kürzer gerechnet werden kann.

public2

Hochschulöffentliche Partition für alle Nutzer. Maximal 48 Stunden Rechenzeit pro Auftrag. Beinhaltet insgesamt 8 Doppelprozessorsysteme aus dem Jahr 2018 mit je 2 12-Kern Xeon Prozessoren mit 512GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Nodes.

exec

Hochschulöffentliche Partition für alle Nutzer. Maximal 24 Stunden Rechenzeit pro Auftrag. Doppelprozessorsysteme mit je 2 16-Kern Opteron Prozessoren, 32GB-128GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Knoten.

public3

Hochschulöffentliche Partition für alle Nutzer. Maximal 8 Tage Rechenzeit pro Auftrag. Beinhaltet insgesamt 3 Nodes mit je 2 6-Kern Xeon Prozessoren mit 512GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Knoten. Da diese 3 Nodes dem FB16 gehören und sich auch gleichzeitig in der Partition FB16 befinden, haben Nutzer des FB16 in dieser Partition Vorrang.

FB16

Alle Mitarbeiter des Fachbereichs 16 haben Zugriff auf diese Partition. Mitarbeiter anderer Fachgebiete und Studenten mit einer Projektarbeit können ebenfalls für begrenzte Zeit freigeschaltet werden, sollte ihnen die Rechenzeit von 8 Tagen in der "public2" nicht ausreichen. Ansprechpartner ist Daniel Bischof, der Ihnen bei Fragen zur Partition gerne weiterhilft.
Unbegrenzte Rechenzeit pro Auftrag, 12 Doppelprozessorsysteme mit je 2 Intel Xeon 6-Kern Prozessoren und Infiniband-Vernetzung.

mpi,mpi1

Moderierte Partitionen für MPI-Anwendungen mit vielen Nodes. Zugang auf Antrag.
Maximal 400 Stunden Rechenzeit pro Auftrag. Doppelprozessorsysteme mit je 2 16-Kern Opteron Prozessoren und Infinband-Vernetzung.

weitere Partitionen

Es gibt weitere Partitionen, die nicht öffentlich sind. Die Rechenknoten in diesen "moderierten" Partitionen wurden gewöhnlich von Fachgebieten/Fachbereichen finanziert und von diesen im Linux-Cluster betrieben.


Informationen über Partitionen und Knoten abrufen

Das Kommando sinfo listet u.a. Informationen über Laufzeiten und Verfügbarkeiten der Partitionen des Clusters aus. Verkürzte Beispielausgabe von sinfo:

sinfo

uk00123@its-cs1:/home/users/000/uk00123> sinfo
PARTITION  AVAIL TIMELIMIT NODES STATE NODELIST
public*      up 2-00:00:00   1  drain its-cs[10]
public*      up 2-00:00:00   22  alloc its-cs[193-205,...,216-218]
public*      up 2-00:00:00   12  idle its-cs[214-215,...,228-231]
minijobs     up    1:00:00   17  alloc its-cs[193,196-205,...,213]
minijobs     up    1:00:00   13  idle its-cs[10,194-195,...,228-231]
exec         up 1-00:00:00   32  alloc its-cs[240-244,...,289]
exec         up 1-00:00:00   12  idle its-cs[291-292,...,327]
...

  • In der Partition public sind 22 Knoten bereits allokiert, also in Nutzung. 12 Knoten sind im Zustand idle und stehen für Aufgaben zur Verfügung. Die maximale Laufzeit (TIMELIMIT) ist auf 2 Tage beschränkt. Der Stern nach dem Partitionsnamen bedeutet, dass es die default-Partition ist, falls für einen Job keine Partitionsangabe gemacht wird.
  • In der Partition minijobs stehen aktuell 13 Knoten für Berechnungen zur Verfügung, die jedoch nur Jobs mit einer maximalen Laufzeit von 1 Stunde annehmen.
  • Die Partition exec ist mit 12 freien Knoten gelistet, die maximale Laufzeit beträgt hier 24 Stunden.

Es gibt auch eine grafische Variante von sinfo, welche mit sview aufgerufen werden kann. Dafür muss beim Betreten des Cluster das sogenannte "X11 forwarding" aktiviert sein (z.B. ssh -X its-cs1.its.uni-kassel.de). 

Weitere Details zu Partitionen können wie folgt abgerufen werden (verkürzte Ausgabe):

scontrol show partition

uk00123@its-cs1:/home/users/000/uk00123> scontrol show partition public
PartitionName=public
AllocNodes=ALL AllowGroups=ALL Default=YES
DefaultTime=00:05:00 DisableRootJobs=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=2-00:00:00 MinNodes=1 MaxCPUsPerNode=UNLIMITED
Nodes=its-cs10,its-cs[193-205],...,its-cs[228-231]
Priority=1 RootOnly=NO ReqResv=NO Shared=NO PreemptMode=OFF
State=UP TotalCPUs=416 TotalNodes=35 SelectTypeParameters=N/A
DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED

Nach oben


Informationen zu einzelnen Knoten abrufen

scontrol show node

uk00123@its-cs1:/home/users/000/uk00123> scontrol show node its-cs214
NodeName=its-cs214 Arch=x86_64 CoresPerSocket=6
CPUAlloc=0 CPUErr=0 CPUTot=12 CPULoad=0.02 Features=12cores,NoIB
Gres=(null)
NodeAddr=its-no214 NodeHostName=its-cs214
OS=Linux RealMemory=64000 AllocMem=0 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=1 TmpDisk=0 Weight=1
BootTime=2015-09-10T11:42:54 SlurmdStartTime=2015-09-10T11:45:25
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s

Nach oben