FAQ - Hochleistungsrechnen

Es kommt vor, dass Nutzer des Clusters ihre Aufgaben auf dem Login-Knoten its-cs1.its.uni-kassel.de starten, so dass dieser ausgelastet ist und ein weiteres Arbeiten für andere User erschwert. Tritt dies wiederholt auf, wird der entsprechende User gesperrt. In diesem Fall, senden Sie uns eine E-Mail. Für interaktives Arbeiten ist lediglich die its-cs10 vorgesehen.

Neben der Homepage zur Wissenschaftlichen Datenverarbeitung des ITS, diversen Webseiten über SLURM, wie z.B. der Offiziellen SLURM-Webseite www.slurm.schedmd.com und der manpages (z.B. man sbatch auf its-cs1) steht eine Zusammenfassung wichtiger Informationen als "Quick reference" zum Download bereit.

Wenn sich Ihr Job in der Warteschlange befindet und nicht anläuft, gibt Ihnen das Feld NODELIST(REASON) der squeue-Ausgabe (Abschnitt Submit-Skript starten) Aufschluss über die mögliche Ursache:

ResourcesJob wartet auf verfügbare Ressourcen
PriorityJob ist in der Queue, auf Grund von Jobs mit höhere Priorität, weiter nach hinten gerückt
ReqNodeNotAvailKombinationen der angeforderten Ressourcen sind nicht verfügbar bzw. existieren nicht oder Job auf reservierter Partition gestartet.


Mehr Informationen in der Dokumentation man squeue im Abschnitt JOB REASON CODES.

Um genau zu überprüfen, warum ein Job abbricht, sind ein paar zusätzliche Informationen hilfreich. Senden Sie uns eine E-Mail mit der Jobnummer, und als Anhang Log-File und Submit-Skript.

Dies kann mit der Rechnerarchitektur des zugewiesenen Knotens zusammen hängen. Das Cluster besteht aus einer Vielzahl von Partitionen, deren CPUs unterschiedlich schnell sind. Bei der Ausführung serieller Jobs auf einem Knoten mit einer Prozessor-Taktrate von z.B. 2300 MHz, ist es sehr wahrscheinlich, dass der Job länger rechnet, als auf einem Desktop-PC mit einer schnelleren CPU.

Es kann auch ein ineffizienter Programmcode für lange Laufzeiten verantwortlich sein. Für Code- und Performaceanalysen senden Sie eine E-Mail mit entsprechenden Informationen zur Ihrem Job.

Weitere Infos zur Hardware finden Sie unter Hardware des Clusters.

Folgende Feature des Linux Cluster können mit der Option --constraint der Befehle sbatch, salloc oder in einem Submit-Skript (#SBATCH --constraint <features>) gesetzt werden:

32|24|12|8Cores   InfiniBand   NoIB   Switch1|2|3 (verfügbar in den Partitionen exec, mpi, mpi1)   SwitchA|B (verfügbar in der Partition thphysik)   Xeon5675

Auf dem Cluster kann im Grunde alles gerechnet werden, was über das Modulsystem verfügbar ist. Parallelisierung wird mit Software wie MVAPICH, MPICH oder OpenMP unterstützt. Weitere Software kann auch im User-Verzeichnis installiert werden, sofern diese unter Linux lauffähig ist (es können keine Windows Programme installiert oder über Wine gestartet werden). Nähere Informationen finden Sie auf der Seite Batchbetrieb mit Slurm.

Im Dateisystem des Clusters ist das Scratch-Laufwerk /work gemountet, dass global verfügbar ist. Das Verzeichnis wird allerdings nicht durch ein Backup gesichert. Treffen Sie hier eigene Vorkehrungen zur Sicherung wichtiger Daten. Weitere Informationen zum Speicherplatz finden Sie unter Zugang.