Knoten und Partitionen

Übersicht

Im Linux-Cluster werden die einzelnen Server als "Nodes" (Knoten) bezeichnet. Diese Nodes sind in sogenannte Partitionen unterteilt. Wenn Sie eine Berechnung auf dem Cluster durchführen möchten, müssen Sie angeben, aus welcher Partition die Nodes stammen sollen.

Die Partitionen sind nach dem Erscheinungsjahr der jeweils verbauten CPUs benannt.
Folgende Partitionen stehen Ihnen zur Verfügung:

PartitionBeschreibung
pub23Hochschulöffentliche Partition für alle Nutzer. Maximal 6 Tage Rechenzeit pro Auftrag. Beinhaltet 36 Nodes mit je 2 AMD EPYC 7443 24-Core Prozessoren aus dem Jahr 2023, 256GB RAM und 100Gbit Infiniband-Vernetzung für Jobs mit mehreren Nodes.
pub23gpuHochschulöffentliche Partition für alle Nutzer. Maximal 6 Tage Rechenzeit pro Auftrag. Beinhaltet 2 Nodes mit je einer Nvidia A100 80GB GPU und je einem AMD EPYC 7443 24-Core Prozessor aus dem Jahr 2023, 256GB RAM und 100Gbit Infiniband-Vernetzung für Jobs mit mehreren Nodes.
pub17Hochschulöffentliche Partition für alle Nutzer. Maximal 6 Tage Rechenzeit pro Auftrag. Beinhaltet 8 Nodes (its-cs[132-139]) mit je 2 12-Kern Intel Xeon E5-2650 Prozessoren aus dem Jahr 2017 mit 512GB Arbeitsspeicher sowie 3 Nodes (its-cs[161-163) mit je 2 16-Kern Intel Xeon Gold 5218 Prozessoren aus dem Jahr 2019 mit 384GB Arbeitsspeicher. Alle 11 Nodes haben Infiniband-Vernetzung für Jobs mit mehreren Nodes.
pub15Hochschulöffentliche Partition für alle Nutzer. Maximal 2 Tage Rechenzeit pro Auftrag. Beinhaltet insgesamt 40 Nodes aus dem Jahr 2015 mit je 2 12-Kern Intel Xeon E5-2680 Prozessoren mit 128GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Knoten. Da sich diese Nodes auch gleichzeitig in der Paritionen AG-Garcia befinden, haben Nutzer welche die Nodes über die Partition AG-Garcia nutzen Vorrang.
pub12Hochschulöffentliche Partition für alle Nutzer. Maximal 10 Tage Rechenzeit pro Auftrag. Je 2 16-Kern AMD Opteron 6276  Prozessoren aus dem Jahr 2012, 32GB-128GB Arbeitsspeicher und Infiniband-Vernetzung für Jobs mit mehreren Nodes. Da sich diese Nodes auch gleichzeitig in den Paritionen mpi und mpi1 befinden, haben Nutzer welche die Nodes über die Partitionen mpi und mpi1 nutzen Vorrang.
FB16Alle Mitarbeiter des Fachbereichs 16 haben automatisch Zugriff auf diese Partition. Mitarbeiter anderer Fachgebiete und Studenten mit einer Projektarbeit können ebenfalls für begrenzte Zeit freigeschaltet werden, sollte ihnen die Rechenzeit von 10 Tagen in der "public" bzw 8 Tagen in der "public2" nicht ausreichen. Ansprechpartner ist Daniel Bischof , der Ihnen bei Fragen zum Zugriff auf die Partition gerne weiterhilft.
Unbegrenzte Rechenzeit pro Auftrag, 12 Doppelprozessorsysteme mit je 2 Intel Xeon 6-Kern Prozessoren und Infiniband-Vernetzung.
weitere PartitionenEs gibt weitere Partitionen, die nicht öffentlich sind. Die Rechenknoten in diesen "moderierten" Partitionen wurden gewöhnlich von Fachgebieten/Fachbereichen finanziert und von diesen im Linux-Cluster betrieben.
 

Informationen über Partitionen und Knoten abrufen

Das Kommando sinfo listet u.a. Informationen über Laufzeiten und Verfügbarkeiten der Partitionen des Clusters aus. Verkürzte Beispielausgabe von sinfo:

sinfo
uk00123@its-cs1:/home/users/000/uk00123>  sinfo
PARTITION   AVAIL  TIMELIMIT  NODES  STATE NODELIST
headnodes     up                  1:00      2   idle its-cs[1,136]
pub23*            up       6-00:00:00      4  drain its-cs[523,531-533]
pub23*            up       6-00:00:00    14  alloc its-cs[500-501,524]
pub23*            up       6-00:00:00    16   idle its-cs[502-505,507-522,525-530]
pub23gpu       up       6-00:00:00      1  alloc its-cs536
pub23gpu       up       6-00:00:00      1   idle its-cs537

...
  • In der Partition pub23 sind 14 Knoten bereits allokiert, also in Nutzung. 16 Knoten sind im Zustand idle und stehen für Aufgaben zur Verfügung, während 4 von einem Admin pausiert wurden um z.B. etwas zu reprarieren. Die maximale Laufzeit (TIMELIMIT) ist auf 6 Tage beschränkt. Der Stern nach dem Partitionsnamen bedeutet, dass es die default-Partition ist, falls für einen Job keine Partitionsangabe gemacht wird.

 

Es gibt auch eine grafische Variante von sinfo, welche mit sview aufgerufen werden kann. Dafür muss beim Betreten des Cluster das sogenannte "X11 forwarding" aktiviert sein (z.B. ssh -X its-cs1.its.uni-kassel.de). 

Weitere Details zu kompletten Partitionen können wie folgt abgerufen werden (verkürzte Ausgabe):

scontrol show partition
PartitionName=pub23
  DefaultTime=00:05:00 DisableRootJobs=NO ExclusiveUser=NO ExclusiveTopo=NO
  MaxNodes=36 MaxTime=6-00:00:00 MinNodes=0 LLN=NO 
  Nodes=its-cs[500-533]
  PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO
  OverTimeLimit=NONE PreemptMode=OFF
  State=UP TotalCPUs=1632 TotalNodes=34 SelectTypeParameters=NONE
  JobDefaults=(null)
  DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED
  TRES=cpu=1632,mem=8262000M,node=34,billing=1632

Informationen zu einzelnen Knoten abrufen

scontrol show node

uk00123@its-cs1:/home/users/000/uk00123> scontrol show node its-cs214
NodeName=its-cs214 Arch=x86_64 CoresPerSocket=6
CPUAlloc=0 CPUErr=0 CPUTot=12 CPULoad=0.02 Features=12cores,NoIB
Gres=(null)
NodeAddr=its-no214 NodeHostName=its-cs214
OS=Linux RealMemory=64000 AllocMem=0 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=1 TmpDisk=0 Weight=1
BootTime=2015-09-10T11:42:54 SlurmdStartTime=2015-09-10T11:45:25
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s