FAQ - Hochleistungsrechnen

Warum kann ich mich nicht mehr auf der cs1 bzw. cs10 einloggen?

Es kommt vor, dass Nutzer des Clusters ihre Aufgaben auf dem Login-Knoten its-cs1.its.uni-kassel.de starten, so dass dieser ausgelastet ist und ein weiteres Arbeiten für andere User erschwert. Tritt dies wiederholt auf, wird der entsprechende User gesperrt. In diesem Fall, senden Sie uns eine E-Mail. Für interaktives Arbeiten ist lediglich die its-cs10 vorgesehen.

Gibt es eine kurze Übersicht wichtiger Infos zum Cluster und SLURM Kommandos?

Neben der Homepage zur Wissenschaftlichen Datenverarbeitung des ITS, diversen Webseiten über SLURM, wie z.B. der Offiziellen SLURM-Webseite www.slurm.schedmd.com und der manpages (z.B. man sbatch auf its-cs1) steht eine Zusammenfassung wichtiger Informationen als "Quick reference" zum Download bereit.

Warum wird mein Job nicht gestartet?

Wenn sich Ihr Job in der Warteschlange befindet und nicht anläuft, gibt Ihnen das Feld NODELIST(REASON) der squeue-Ausgabe (Abschnitt Submit-Skript starten) Aufschluss über die mögliche Ursache:

Resources	Job wartet auf verfügbare Ressourcen
Priority	Job ist in der Queue, auf Grund von Jobs mit höhere Priorität, weiter nach hinten gerückt
ReqNodeNotAvail	Kombinationen der angeforderten Ressourcen sind nicht verfügbar bzw. existieren nicht oder Job auf reservierter Partition gestartet.

Mehr Informationen in der Dokumentation man squeue im Abschnitt JOB REASON CODES.

Warum bricht mein Job ab?

Um genau zu überprüfen, warum ein Job abbricht, sind ein paar zusätzliche Informationen hilfreich. Senden Sie uns eine E-Mail mit der Jobnummer, und als Anhang Log-File und Submit-Skript.

Warum ist die Performance meines Job schlecht?

Dies kann mit der Rechnerarchitektur des zugewiesenen Knotens zusammen hängen. Das Cluster besteht aus einer Vielzahl von Partitionen, deren CPUs unterschiedlich schnell sind. Bei der Ausführung serieller Jobs auf einem Knoten mit einer Prozessor-Taktrate von z.B. 2300 MHz, ist es sehr wahrscheinlich, dass der Job länger rechnet, als auf einem Desktop-PC mit einer schnelleren CPU.

Es kann auch ein ineffizienter Programmcode für lange Laufzeiten verantwortlich sein. Für Code- und Performaceanalysen senden Sie eine E-Mail mit entsprechenden Informationen zur Ihrem Job.

Weitere Infos zur Hardware finden Sie unter Hardware des Clusters.

Welche speziellen Feature kann ich im Cluster anfordern?

Folgende Feature des Linux Cluster können mit der Option --constraint der Befehle sbatch, salloc oder in einem Submit-Skript (#SBATCH --constraint <features>) gesetzt werden:

32|24|12|8Cores InfiniBand NoIB Switch1|2|3 (verfügbar in den Partitionen exec, mpi, mpi1) SwitchA|B (verfügbar in der Partition thphysik) Xeon5675

Was kann auf dem Cluster gerechnet werden?

Auf dem Cluster kann im Grunde alles gerechnet werden, was über das Modulsystem verfügbar ist. Parallelisierung wird mit Software wie MVAPICH, MPICH oder OpenMP unterstützt. Weitere Software kann auch im User-Verzeichnis installiert werden, sofern diese unter Linux lauffähig ist (es können keine Windows Programme installiert oder über Wine gestartet werden). Nähere Informationen finden Sie auf der Seite Batchbetrieb mit Slurm.

Existiert ein Verzeichnis in dem ich große Daten ablegen kann?

Im Dateisystem des Clusters ist das Scratch-Laufwerk /work gemountet, dass global verfügbar ist. Das Verzeichnis wird allerdings nicht durch ein Backup gesichert. Treffen Sie hier eigene Vorkehrungen zur Sicherung wichtiger Daten. Weitere Informationen zum Speicherplatz finden Sie unter Zugang.