Da­ten spei­chern und tei­len

Die regelmäßige Sicherung der Forschungsdaten spielt eine zentrale Rolle im Forschungsdatenmanagement. Sie obliegt der Verantwortung der Forschenden, die darin vom IT Servicezentrum mit folgenden Diensten unterstützt werden. 

Sie benötigen mehr Speicherplatz für Ihr Forschungsprojekt?

Das ITS stellt Ihnen zentrale Speicherservices zur Verfügung. Der Zugriff erfolgt im Regelfall einfach durch das Einbinden des Speichers als Netzlaufwerk in die Dateistruktur des eigenen Rechners. Neben dem sogenannten persönlichen „Home-Verzeichnis“, das automatisch mit dem Uni-Account angelegt wird, gibt es die Möglichkeit, eine „Gruppenressource“ zu beantragen, um einer von Ihnen definierbaren Gruppe von uni-internen Nutzern Zugriff auf die Daten zu ermöglichen. Beide Speicherbereiche werden automatisch in die nächtliche Datensicherung mit aufgenommen.

SharePoint kann Sie bei der Zusammenarbeit in Ihrem Forschungsprojekt auch mit uni-externen Projektmitgliedern unterstützen. Es bietet Groupware-, Dokumenten- und Projektmanagementfunktionalitäten, die Daten verbleiben jedoch auf Servern der Universität Kassel.

Auch die  Hessenbox kann sie bei der Zusammenarbeit in Ihrem Forschungsprojekt unterstützen. Teilen, Versionieren und zwischen verschiedenen Endgeräten synchronisieren wird in Bezug auf Sicherheit, Vertraulichkeit und Zugriffsschutz gewährleistet.

Das IT Servicezentrum betreibt einen Linux-Cluster für wissenschaftliche Anwendungen mit hohem CPU- und Speicherbedarf. Der Linux-Cluster ist ein Verbund von vernetzten Computern unter einem Linux-Betriebssystem mit einem Zugangsrechner und Rechnern für die eigentliche Auftragsverarbeitung, auf denen die Anwendungsprogramme laufen.

Für spezielle Aufgaben können Sie im IT Servicezentrum virtuelle Server anmieten (Hosting) oder auch eigene Server-Hardware unterstellen und betreiben (Housing). Wenden Sie sich hierzu bitte an den IT-ServiceDesk.

Für die regelmäßige Sicherung Ihrer Daten auf Arbeitsplatzrechnern und Servern innerhalb des Datennetzwerks der Universität können Sie das vom ITS betriebene Backupsystem TSM (Tivoli Storage Manager) nutzen.

FAQ

Im Arbeitsprozess entstehen oft nicht nur eine Vielzahl von Datensätzen, sondern durch verschiedene Modifizierungsstufen auch jeweilige Versionen. Mit Blick auf ein effizientes Arbeiten, koordinierte kollaborative Arbeitsprozesse, die langfristige Nachvollziehbarkeit und ggf. interne oder externe Nachnutzbarkeit empfiehlt sich die Festlegung spezifischer Konventionen zur Benennung und Versionierung von Datensätzen. Gegebenenfalls kann es zusätzlich sinnvoll sein, zusätzlich Ordnerstrukturen nach Prozessierungsgrad zu definieren. Die Konventionen sollten wiederum dokumentiert werden.

Namenskonventionen können abhängig von den Spezifika der Forschungsbereiche und Daten sehr unterschiedlich aussehen. Sie sollten widerspiegeln, um welche Art der Datendateien (Originaldaten / Rohdaten, bereinigte Dateien, Analysedateien) bzw. welche Dateiform (Arbeitsdatei, Ergebnisdatei etc.) es sich handelt. Diese Differenzierung kann auch über Versionierungskonventionen geschehen. Wichtig sind Einheitlichkeit, Eindeutigkeit und Aussagekraft .

Beispiele für sprechende Dateibenennungen sind etwa:

  • [Sediment]_[Probe]_[Instrument]_[YYYYMMDD].dat
  • [Experiment]_[Reagens]_[Instrument]_[YYYYMMDD].csv
  • [Experiment]_[Versuchsaufbau]_[Versuchsperson]_[YYYYMMDD].sav
  • [Beobachtung]_[Ort]_[YYYYMMDD].mp4
  • [Interviewpartner]_[Interviewer] ]_[YYYYMMDD].mp3

Um die Kompatibilität zwischen verschiedenen Betriebssystemen zu gewährleisten, sollte auf Sonderzeichen (außer Unter- und Bindestriche) sowie auf Umlaute verzichtet werden. Dateinamen sollten 21 Zeichen nicht überschreiten.

In den verschiedenen Modifikationsstadien (z.B. Originaldaten, bereinigte Daten, analysefähige Daten) sollten schreibgeschützeVersionen erstellt werden. Weitere Bearbeitungen sollten nur in Kopien dieser Master-Dateien vorgenommen werden.

Ein bekanntes Konzept der Versionierung , das auf dem DDI-Standard (Data Documentation Initiative) basiert, lautet:

Ausgehend von der Version "v1-0-0" werden dabei geändert:

1. die erste Stelle, wenn mehrere Fälle, Variablen, Wellen oder Sample hinzugefügt oder gelöscht wurden

2. die zweite Stellen, wenn Daten korrigiert werden, so dass die Analyse beeinflusst wird

3. die dritte Stelle, wenn einfache Überarbeitungen ohne Bedeutungsrelevanz vorgenommen werden

Konventionen sollten immer den fach- bzw. projektspezifischen Bedürfnissen angepasst werden. Stehen Versionen z.B. nicht in linearer Beziehung zueinander, können über spezielle Metadatenschemata (etwa das DataCite Metadata Schema) Beziehungen definiert werden ("IsDerivedBy", "IsSourceOf")

Versionierung kann auch durch entsprechende Software (z.B. Git) unterstützt werden.


Diese Lösungen beziehen sich lediglich auf die (temporäre) Sicherung ihrer Arbeitsdateien und sind in Umfang und Funktion beschränkt. Sie können mit weiteren Speicheroptionen (wie externe Speichermedien) kombiniert werden. Für die Aufbewahrung der Daten entsprechend guter wissenschaftlicher Praxis ist dies nicht ausreichend. Vgl. hierzu (↗Wo archiviere ich meine Daten langfristig?)