Da­ten ar­chi­vie­ren und pu­bli­zie­ren

Daten müssen nicht nur im Arbeitsprozess gespeichert, sondern sollten im Sinne Guter Wissenschaftlicher Praxis auch zu einem geeigneten Zeitpunkt archiviert werde. So verlangen die DFG wie auch der Universität Kassel die Aufbewahrung von Forschungsdaten über mindestens 10 Jahre.

Diese Funktion kann insbesondere von Repositorien geleistet werden. Diese bieten außerdem die Möglichkeit, Daten zu publizieren.

Wir empfehlen die Ablage und ggf. Publikation der Daten in einem fachspezifischen Repositorium. Eine gezielte Suche nach Fachrepositorien bietet der Repository Finder.

Die Universität Kassel stellt allen Forschenden, die kein fachspezifisches Repositorium nutzen können oder möchten, ein institutionelles Repositorium (DaKS) zur Verfügung, das sowohl die Funktion der Archivierung als auch der Publikation erfüllt. Dieses kann auch für studentische Projekte und Abschlussarbeiten genutzt werden.

FAQ

Die Veröffentlichung Ihrer Daten bietet für das Wissenschaftssystem, aber auch für Sie persönlich Vorteile.

Veröffentlichte Daten stehen zur Nachnutzung in neuen Kontexten, z.B. auch für interdisziplinäre Fragestellungen oder Meta-Analysen zur Verfügung. Hierdurch können nicht nur wissenschaftliche Mehrwerte geschaffen, sondern auch Doppelarbeit vermieden und Kosten gespart werden.

Durch die Vergabe von dauerhaften Identifikatoren sind Ihre Daten für Sie selbst und andere dauerhaft referenzierbar und zitierfähig. Dies ist eine Voraussetzung dafür, dass Datenpublikationen als eigenständige Leistung gewürdigt werden und ins wissenschaftlichen Reputationssystem Eingang finden können. Eine Studie von Piwowar und Vision (2013) zeigt außerdem die höhere Zitationsrate von Publikationen, bei denen die zugrunde liegenden Forschungsdaten veröffentlicht wurden.

Nicht zuletzt erfüllt die Veröffentlichung in einigen Fällen schlicht  Anforderungen dritter. Neben den Anforderungen von ↗Forschungsförderern fordern auch Publikationsdienstleister vermehrt die Bereitstellung derjenigen Forschungsdaten, die einer Publikation zugrunde liegen. Einige Beispiele für solche Vorgaben sind:

Es gibt sowohl fachspezifische bzw. thematische wie auch generische Repositorien. Fachrepositorien und -datenzentren (wie etwa Pangaea für geowissenschaftliche Daten, GenBank, Protein Data Bank) stellen nicht zuletzt mit Blick auf die Sichtbarkeit in der Fachcommunity aber auch hinsichtlich der Konformität zu fachspezifischen Standards häufig die erste Wahl dar. Eine Übersicht über Fachrepositorien bietet die Registry of research data repositories (re3data.org) sowie das Open Access Directory zu Forschungsdaten. Eine gezielte Suche nach Fachrepositorien, die auch eine Datenablage erlauben, bietet der auf re3data basierende Repository Finder.

Bei der Entscheidung für ein bestimmtes Repositorium können Ihnen folgende Punkte helfen:

  • Handelt es sich um ein fachlich passendes Repositorium? Ist es etabliert und an spezifische Suchportale angebunden?
  • Bietet das Repositorium die gewünschten Services (PIDs, Open Access, differenzierte Zugriffsrechte (z.B. Nutzungsverträge), Realisierung von Embargo-Fristen)
  • Ist die Nachhaltigkeit des Repositorium gewährleistet? Gibt es eine Exit-Strategie bzw. eine Übereinkunft zur Erhaltung der Daten bei z.B. Wegfall der Finanzierung?
  • Wie sind Datenüberlassung und Datennutzung inhaltlich und formal geregelt?

Die Universität Kassel stellt außerdem allen Forschenden, die kein fachspezifisches Repositorium nutzen können oder möchten, (voraussichtlich ab Mitte Januar 2021) ein institutionelles Repositorium (DaKS) zur Verfügung, das sowohl die Funktion der Archivierung als auch der Publikation erfüllt (siehe auch "Daten archivieren und puiblizieren"). Dieses kann auch für studentische Projekte und Abschlussarbeiten genutzt werden

Darüber hinaus stehen fachübergreifende Repositorien für Forschungsdaten wie das EU-geförderte ZENODO, Dryad oder figshare zur Verfügung.

    Das Hochladen Ihrer Daten ist nicht mit dem freien Zugriff gleichzusetzen. Grundsätzlich können Sie Forschungsdaten auch verzögert publizieren oder lediglich die Metadaten zugänglich machen. Im Falle einer tatsächlichen Veröffentlichung können Sie über die Lizenz oder Verträge die Rechte auf Zugriff und Bearbeitung detailliert regeln (↗Kann ich die Nutzung meiner Daten dann überhaupt kontrollieren?). Diese Möglichkeiten können im Wesentlichen beschränkt werden durch:

    • die spezifische Anforderungen und Policies Ihrer Forschungsförderer und/oder Verleger
    • fehlende/begrenzte Rechte an den Daten
    • Datenschutzrechtliche Einschränkungen
    • Einschränkungen auf Seiten des Repositoriums

    Es gibt Konstellationen, unter denen eine Veröffentlichung der Daten nicht oder nur unter bestimmten Bedingungen erfolgen sollte. Wichtigste Voraussetzung für eine Veröffentlichung ist, dass Sie über das Recht hierzu verfügen (↗Wer darf über die Weitergabe und Veröffentlichung von Daten entscheiden?Besitze ich das Urheberrecht an meinen Daten?).

    Zum anderen kann es sich um vertrauliche, personenbezogene Daten handeln, die nur nach Anonymisierung oder mit Einverständnis der Betroffenen veröffentlicht werden dürfen (↗Welche datenschutzrechtlichen Beschränkungen muss ich beachten?).

    Unter personenbezogenen Daten versteht man "Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person" (§ 3 Abs. 1 BDSG). Sie unterliegen in ihrer Erhebung, Nutzung und Weitergabe strengen Vorgaben. Für die Archivierung, Bereitstellung und Veröffentlichung sollten Informationen, die einer bestimmten oder bestimmbaren Person zugeordnet werden können, aus den Forschungsdaten entfernt werden. Abhängig von den Daten eignen sich hier verschiedene Wege der Anonymisierung.

    Anleitungen finden Sie beim ForschungsdatenZentrum Bildung. Darüber hinaus existieren verschiedene Werkzeuge zur Anonymisierung von Daten wie ARXsdc-micro oder das Anonymisierungstool der TMF.

    Sollen personenbezogene Daten verarbeitet werden, muss in der Regel die Einwilligung der betroffenen Person eingeholt werden. Hierbei muss u.a. der Zweck klar definiert werden und die betroffene Person die Folgen abschätzen können

    Darüber hinaus können Forschungsdaten wie etwa Unternehmensdaten vertrauliche Informationen enthalten (Know-How-Schutz) oder Vertraulichkeits- und Geheimhaltungsvereinbarungen getroffen worden sein, die eine Veröffentlichung ausschließen.

    Mögliche Besitzer oder Mitbesitzer der Rechte an den Daten sind die Forschenden, der Arbeitgeber, der Auftraggeber, Forschungsförderer und/oder (privatwirtschaftliche) Vertragspartner. Wer über die Weiterhabe oder Veröffentlichung von Forschungsdaten mitentscheiden darf oder gefragt werden muss, bestimmt sich über die Vertragsverhältnisse. Üblicherweise sind Ergebnisse weisungsgebundener Forschung Eigentum des Arbeit- bzw. Geldgebers. Anders verhält es sich bei eigener Forschung, über deren Daten Forschende selbst bestimmen dürfen.

    Forschungsobjekte und vereinzelt auch Forschungsdaten können als Werk im Sinne des Urhebergesetzes geschützt sein. Das können sein Sprachwerke, Computerprogramme, Musikwerke, Pantomimische Werke einschließlich Werke der Tanzkunst, Werke der bildenden Künste einschließlich der Werke der Baukunst und der angewandten Kunst, Lichtbildwerke, Filmwerke und Darstellungen wissenschaftlicher und technischer Art. 

    In der Regel fehlt Forschungsdaten aber die notwendige Schöpfungshöhe und sie sind keine Werke. In Betracht kommt aber, dass bestimmte Arten von Forschungsdaten unter ein Leistungsschutzrecht fallen, zum Beispiel Lichtbilder, Laufbilder oder Tonträger.

    Oft sind die Forschungsdaten eines Forschungsvorhabens aber als Teil eines Datenbankwerks urheberrechtlich geschützt oder fallen unter das Leistungsschutzrecht für Datenbanken.

    Forschungsdaten, die nicht unter ein Schutzrecht fallen, können in der Regel von jedermann ohne eine Genehmigung oder Zahlungsverpflichtung zu jedem beliebigen Zweck verwendet werden.

    Sofern Sie ein Urheberecht oder Leistungsschutzrecht über Forschungsdaten besitzen, können Sie verschiedene Aspekte der Nutzung über entsprechende Verträge regulieren, wie etwa Art und Weise der Nutzung, Nutzergruppen und –zeitraum, Zweck etc. Da vertragliche Einzelfallregelungen praktisch sehr aufwendig wären, existieren verschiedene Lösungen der standardisierten Regelungen von Nutzungsrechten. So bietet beispielsweise das Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) Standardverträge für die Nutzung der psychologischen Daten und GESIS regelt über Nutzungsverträge die Zugangsbeschränkungen für besonders sensible sozialwissenschaftliche Daten. Wenn Ihre Daten keiner spezifischen Zugriffs- oder Nutzungsbeschränkung unterliegen sollen, bietet sich die Verwendung standardisierter Lizenzen wie Creative Commons oder Open Data Commons an (↗Welche Lizenz soll ich wählen?).

    Die Veröffentlichung von Daten unter einer bestimmten Lizenz erlaubt eine detaillierte Festlegung der zulässigen Form ihrer Nutzung. Sie schaffen Rechtssicherheit sowohl auf Seiten der bereitstellenden als auch der nutzenden Person. Auch bei dem Verzicht auf jegliche Beschränkungen ist es daher wichtig, diesen zu formulieren.

    Wenngleich Daten selbst in der Regel nicht dem Urheberrecht unterliegen, spricht doch einiges dafür, sie als potentiell schützenswert zu behandeln, nicht zuletzt um den eigenen Vorstellungen der Weiternutzung Ausdruck zu verleihen. Hierfür bieten sich verschiedene Lizenzmodelle an. Das verbreitetste unter ihnen ist ‚Creative Commons‘ (CC). CC-Lizenzen sind unabhängig vom lizenzierten Inhalt und decken Urheberrechte, Leistungsschutzrechte und in der aktuellen Version – sofern existent – auch Datenbankherstellerrecht ab.

    Speziell für die Veröffentlichung von Daten ist das Lizenz-Paket ‚Open Data Commons‘ der Open Knowledge International (ehemals Open Knowledge Foundation) konzipiert worden. Neben der bedingungslosen Lizenz (Open Data Commons Public Domain Dedication and License (PDDL)) bietet es drei weitere Modelle:

    Unabhängig von Ihrer rechtlichen Verbindlichkeit erfüllt die Lizenz CC-BY die Idee von Open Access und Open Science sicherlich am ehesten, wogegen die ‚Weitergabe unter gleichen Bedingungen‘ zu Kompatibilitätsproblemen mit anderen Lizenzen, das Verbot von Bearbeitung zu Einschränkungen bei Nutzung durch z.B. Data-Mining oder auch zu Problemen bei der Langzeitarchivierung führen kann. Das Verbot kommerzieller Nutzung erschwert die Verwendung in kommerziellen Datenbanken und reduziert damit potentiell die Sichtbarkeit Ihrer Forschung (für Details vgl. Paul Klimpel, 2012).

    Welche Lizenz Sie auch wählen – Sie sollten eine bewusste und informierte Entscheidung treffen.
    Eine ausführlichere Auseinandersetzung mit der Thematik finden Sie bei Andreas Wiebe &  Lucie Guibault (2013).

    Unabhängig von den Nutzungsbedingungen gelten selbstverständlich die Regeln guter Wissenschaftlicher Praxis, die eine Angabe der Quelle verwendeter Daten fordern.

    Anhand von Metadaten werden Ressourcen, in diesem Fall Forschungsdaten, beschrieben, um ihre Auffindbarkeit zu optimieren. Zu den basalen Informationen gehören beispielsweise Titel, Autor/Primärforscher, Institution, Identifier, Ort & Zeitraum, Thema, Rechte, Dateinamen, Formate etc. Da diese Informationen für das Auffinden, das Verständnis und die Nutzung von Daten essentiell sind, sollen standardisierte Metadatenschemata eine möglichst einheitliche und nachvollziehbare Beschreibung sicherstellen.

    Metadatenschemata sind Zusammenstellungen von Elementen zur Beschreibung von Daten. Einige Disziplinen verfügen bereits über spezifische Metadatenschemata, wie etwa

    Vor Beginn der Dokumentation Ihrer Daten, bestenfalls bereits im Rahmen eines Datenmanagementplans, sollten Sie daher prüfen, ob für Ihre Disziplin bereits ein passendes Metadatenschema existiert. Informationen hierzu bietet z.B. das Digital Curation Center (DDC). Sollte kein fachspezifisches Schema zur Verfügung stehen, kann auch ein disziplinunabhängiges, wie etwa Dublin Core, MARC21 oder RADAR. genutzt werden.

    Metadatenschemata legen also fest, welche Informationen geliefert werden sollen. Für eine bestmögliche Suche und Nutzung der Daten ist es darüber hinaus wichtig, diese Informationen in einem möglichst einheitlichen Format zu geben. Hierfür stehen eine Reihe disziplinspezifischer und –übergreifender sog. ‚kontrollierter Vokabulare‘, Thesauri, Klassifikationen und Normdaten zur Verfügung, wie etwa:

    Einen Überblick über verschiedene Systeme bieten z.B. das Basel Register of Thesauri, Ontologies & Classifications (BARTOC) und Taxonomy Warehouse.

    Eine Dokumentation geht in der Regel über die Beschreibung der Daten via Metadaten hinaus. Sie stellt eine tiefere (fachwissenschaftliche) Erschließung dar, in deren Rahmen z.B. Entstehungskontext, Variablen, Instrumente, Methoden etc. ausführlich beschrieben werden. In vielen Fällen ist eine solche Beschreibung unerlässlich, um die Daten verstehen, nachprüfen und ggf. nutzen zu können.

    Einführungen ins Thema Metadaten bieten z.B. der JISC Guide oder der interaktive Mantra-Kurs der Universität Edinburgh.