FAQ – häu­fig ge­stell­te Fra­gen

Ein­füh­rung und Hin­ter­grün­de

Forschungsdaten sind alle Daten, die im Laufe eines wissenschaftlichen Prozesses erzeugt, bearbeitet oder genutzt werden oder dessen Ergebnis sind. Forschungsdaten können je nach Wissenschaftsdisziplin in unterschiedlichen Formaten vorliegen.

Forschungsdatenmanagement ist der Prozess, in dem die Erzeugung, Verwaltung und Sicherung dieser Daten beschrieben bzw. geplant wird. Es umfasst alle Bereiche der Datenverwaltung, insbesondere die Planung der Datenerhebung, die Erzeugung und Aufbereitung der Daten, die Datenintegrität, ihre Dokumentation und nachhaltige Aufbewahrung sowie die Zugänglichmachung der Daten. Entwickelt und dokumentiert wird dieser Prozess mit Hilfe eines Datenmanagementplans, der Teil eines jeden Forschungsvorhabens ist bzw. sein sollte.

Der Datenmanagementplan ist ein „lebendes Dokument“, das zunächst das zentrale Planungswerkzeug für das Datenmanagement im Forschungsprojekt darstellt und sich im Projektverlauf zum Projektdokumentationswerkzeug entwickelt.

Datensicherheit: Ein professioneller Umgang mit Forschungsdaten schützt vor

  • Datenverlust,
  • Missbrauch,
  • ermöglicht ein späteres Nachvollziehen der Forschungsergebnisse und
  • eine zukünftige Nachnutzung der Daten!

Werden die Grundsätze des Forschungsdatenmanagements bei der Planung und Umsetzung des Forschungsprojektes beachtet, kann die Gefahr eines Datenverlustes minimiert werden.

Ein physischer Datenverlust wird durch die erforderliche Anzahl an Kopien, Speichermedien und Sicherungsintervalle verhindert. Durch die Verwendung von langfristig lesbaren Dateiformaten und die Sicherung auf geeigneten Speichermedien wird die langfristige Verfügbarkeit der Daten gewährleistet.

Ein inhaltlicher Datenverlust wird durch eine professionelle Dokumentation der Datenerhebung, Datenaufbereitung und Beschreibung über Metadaten verhindert. Dadurch wird sichergestellt, dass auch nach Jahren ursprünglich nicht am Forschungsprojekt beteiligte Personen die erhobenen Daten interpretieren und somit gegebenenfalls nachnutzen können. Wichtig dabei ist, dass insbesondere auch solche Metadaten von Vorneherein mitberücksichtigt werden, die für die unmittelbaren Untersuchungsinteressen nicht von Belang scheinen mögen, für die spätere Nachnutzung der Daten – auch und gerade durch Personen, die an der ursprünglichen Erhebung nicht beteiligt waren – aber unverzichtbar sind.

Die Notwendigkeit eines professionellen Forschungsdatenmanagements kann sich aus fachspezifischen Anforderungen, Anforderungen der eigenen Forschungsinstitution, der Forschungsförderer oder Journals ergeben. Informieren Sie sich über die Anforderungen Ihres Faches, Ihrer Hochschule oder ihres Instituts, Ihres Drittmittelgebers oder des Journals, bei dem Sie publizieren möchten, z.B.:

Forschungsdaten-Leitlinie der Uni Kassel

Leitlinien zum Umgang mit Forschungsdaten der DFG

 

Struk­tur, For­ma­te und Do­ku­men­ta­ti­on

Im Arbeitsprozess entstehen oft nicht nur eine Vielzahl von Datensätzen, sondern durch verschiedene Modifizierungsstufen auch jeweilige Versionen. Mit Blick auf ein effizientes Arbeiten, koordinierte kollaborative Arbeitsprozesse, die langfristige Nachvollziehbarkeit und ggf. interne oder externe Nachnutzbarkeit empfiehlt sich die Festlegung spezifischer Konventionen zur Benennung und Versionierung von Datensätzen. Gegebenenfalls kann es zusätzlich sinnvoll sein, zusätzlich Ordnerstrukturen nach Prozessierungsgrad zu definieren. Die Konventionen sollten wiederum dokumentiert werden.

Namenskonventionen können abhängig von den Spezifika der Forschungsbereiche und Daten sehr unterschiedlich aussehen. Sie sollten widerspiegeln, um welche Art der Datendateien (Originaldaten / Rohdaten, bereinigte Dateien, Analysedateien) bzw. welche Dateiform (Arbeitsdatei, Ergebnisdatei etc.) es sich handelt. Diese Differenzierung kann auch über Versionierungskonventionen geschehen. Wichtig sind Einheitlichkeit, Eindeutigkeit und Aussagekraft .

Beispiele für sprechende Dateibenennungen sind etwa:

  • [Sediment]_[Probe]_[Instrument]_[YYYYMMDD].dat
  • [Experiment]_[Reagens]_[Instrument]_[YYYYMMDD].csv
  • [Experiment]_[Versuchsaufbau]_[Versuchsperson]_[YYYYMMDD].sav
  • [Beobachtung]_[Ort]_[YYYYMMDD].mp4
  • [Interviewpartner]_[Interviewer] ]_[YYYYMMDD].mp3

Um die Kompatibilität zwischen verschiedenen Betriebssystemen zu gewährleisten, sollte auf Sonderzeichen (außer Unter- und Bindestriche) sowie auf Umlaute verzichtet werden. Dateinamen sollten 21 Zeichen nicht überschreiten.

In den verschiedenen Modifikationsstadien (z.B. Originaldaten, bereinigte Daten, analysefähige Daten) sollten schreibgeschützeVersionen erstellt werden. Weitere Bearbeitungen sollten nur in Kopien dieser Master-Dateien vorgenommen werden.

Ein bekanntes Konzept der Versionierung , das auf dem DDI-Standard (Data Documentation Initiative) basiert, lautet:

Ausgehend von der Version "v1-0-0" werden dabei geändert:

1. die erste Stelle, wenn mehrere Fälle, Variablen, Wellen oder Sample hinzugefügt oder gelöscht wurden

2. die zweite Stellen, wenn Daten korrigiert werden, so dass die Analyse beeinflusst wird

3. die dritte Stelle, wenn einfache Überarbeitungen ohne Bedeutungsrelevanz vorgenommen werden

Konventionen sollten immer den fach- bzw. projektspezifischen Bedürfnissen angepasst werden. Stehen Versionen z.B. nicht in linearer Beziehung zueinander, können über spezielle Metadatenschemata (etwa das DataCite Metadata Schema) Beziehungen definiert werden ("IsDerivedBy", "IsSourceOf")

Versionierung kann auch durch entsprechende Software (z.B. Git) unterstützt werden.

Die Wahl des geeigneten Dateiformats ist insbesondere mit Blick auf langfristige Speicherung und Nutzung der Daten bedeutsam. Einige Eigenschaften sind dabei in der Regel gewünscht: Dateien/Formate sollten nicht verschlüsselt, nichtkomprimiert, nicht proprietär/patentiert sein. Entsprechend werden offene, dokumentierte Standards bevorzugt. Beispielsweise werden in der Regel folgende Formate bevorzugt:

 

Empfohlenes FormatWeniger geeignet / ungeeignet
.odf, .rtf, .txt.doc/.docx
ASCII, .csv, .tsv, .tab.xls/.xlsx, .mdb, .accdb
.por (SPSS portable).sav (SPSS)
.wav, .flac.mp3
.mp4.mov, .avi, .wmv
.tiff, .jp2/.j2k/.jpx.gif oder .jpg
RDF, .xmlRDBMS
pdf/apdf

Beispiele für Empfehlungen finden Sie etwa beim UK data Service, bei RADAR oder der HU Berlin.

Anhand von Metadaten werden Ressourcen, in diesem Fall Forschungsdaten, beschrieben, um ihre Auffindbarkeit zu optimieren. Zu den basalen Informationen gehören beispielsweise Titel, Autor/Primärforscher, Institution, Identifier, Ort & Zeitraum, Thema, Rechte, Dateinamen, Formate etc. Da diese Informationen für das Auffinden, das Verständnis und die Nutzung von Daten essentiell sind, sollen standardisierte Metadatenschemata eine möglichst einheitliche und nachvollziehbare Beschreibung sicherstellen.

Metadatenschemata sind Zusammenstellungen von Elementen zur Beschreibung von Daten. Einige Disziplinen verfügen bereits über spezifische Metadatenschemata, wie etwa

Vor Beginn der Dokumentation Ihrer Daten, bestenfalls bereits im Rahmen eines Datenmanagementplans, sollten Sie daher prüfen, ob für Ihre Disziplin bereits ein passendes Metadatenschema existiert. Informationen hierzu bietet z.B. das Digital Curation Center (DDC). Sollte kein fachspezifisches Schema zur Verfügung stehen, kann auch ein disziplinunabhängiges, wie etwa Dublin Core, MARC21 oder RADAR. genutzt werden.

Metadatenschemata legen also fest, welche Informationen geliefert werden sollen. Für eine bestmögliche Suche und Nutzung der Daten ist es darüber hinaus wichtig, diese Informationen in einem möglichst einheitlichen Format zu geben. Hierfür stehen eine Reihe disziplinspezifischer und –übergreifender sog. ‚kontrollierter Vokabulare‘, Thesauri, Klassifikationen und Normdaten zur Verfügung, wie etwa:

Einen Überblick über verschiedene Systeme bieten z.B. das Basel Register of Thesauri, Ontologies & Classifications (BARTOC) und Taxonomy Warehouse.

Eine Dokumentation geht in der Regel über die Beschreibung der Daten via Metadaten hinaus. Sie stellt eine tiefere (fachwissenschaftliche) Erschließung dar, in deren Rahmen z.B. Entstehungskontext, Variablen, Instrumente, Methoden etc. ausführlich beschrieben werden. In vielen Fällen ist eine solche Beschreibung unerlässlich, um die Daten verstehen, nachprüfen und ggf. nutzen zu können.

Einführungen ins Thema Metadaten bieten z.B. der JISC Guide oder der interaktive Mantra-Kurs der Universität Edinburgh.

Da­ten­pu­bli­ka­ti­on

Die Veröffentlichung Ihrer Daten bietet für das Wissenschaftssystem, aber auch für Sie persönlich Vorteile.

Veröffentlichte Daten stehen zur Nachnutzung in neuen Kontexten, z.B. auch für interdisziplinäre Fragestellungen oder Meta-Analysen zur Verfügung. Hierdurch können nicht nur wissenschaftliche Mehrwerte geschaffen, sondern auch Doppelarbeit vermieden und Kosten gespart werden.

Durch die Vergabe von dauerhaften Identifikatoren sind Ihre Daten für Sie selbst und andere dauerhaft referenzierbar und zitierfähig. Dies ist eine Voraussetzung dafür, dass Datenpublikationen als eigenständige Leistung gewürdigt werden und ins wissenschaftlichen Reputationssystem Eingang finden können. Eine Studie von Piwowar und Vision (2013) zeigt außerdem die höhere Zitationsrate von Publikationen, bei denen die zugrunde liegenden Forschungsdaten veröffentlicht wurden.

Nicht zuletzt erfüllt die Veröffentlichung in einigen Fällen schlicht  Anforderungen dritter. Neben den Anforderungen von ↗Forschungsförderern fordern auch Publikationsdienstleister vermehrt die Bereitstellung derjenigen Forschungsdaten, die einer Publikation zugrunde liegen. Einige Beispiele für solche Vorgaben sind:

Die Veröffentlichung Ihrer Daten kann auf verschiedenen Wegen geschehen:

  • Disziplinspezifische Datenrepositorien und –zentren (↗Wie finde ich ein passendes Repositorium?). Dies stellt in der Regel die beste Lösung dar.
  • Disziplinübergreifende Repositorien wie Zenodo, Dryad oder figshare (einen Vergleich der drei Repositorien finden Sie hier). Hierbei handelt es sich eher um eine mittelfristige Lösung, da die Langzeitarchivierung nicht gewährleistet ist. Disziplinübergreifend steht auch das Repositorium der Universität Kassel zur Verfügung (siehe hierzu "Daten archivieren und puiblizieren")
  • Datensupplemente von Fachzeitschriften, z.B. bei Nature. Dies wird zunehmend gefordert, sollte aber mit Blick auf die Langzeitverfügbarkeit durch andere  Archivierungsstrategien ergänzt werden.

In Datenzeitschriften wie z.B. GigaScience, Earth System Science Data oder Journal of Chemical and Engineering Data (Listen von Data Journals #1, #2) werden keine Daten selbst, sondern deren Beschreibung– keine Interpretation – veröffentlicht (Dokumentation oder Data-Curation-Profiles). Dies trägt nicht zuletzt der Tatsache Rechnung, dass traditionelle Artikel für die – wichtige und wertvolle – Datenbeschreibung kaum Raum bieten.

Es gibt sowohl fachspezifische bzw. thematische wie auch generische Repositorien. Fachrepositorien und -datenzentren (wie etwa Pangaea für geowissenschaftliche Daten, GenBank, Protein Data Bank) stellen nicht zuletzt mit Blick auf die Sichtbarkeit in der Fachcommunity aber auch hinsichtlich der Konformität zu fachspezifischen Standards häufig die erste Wahl dar. Eine Übersicht über Fachrepositorien bietet die Registry of research data repositories (re3data.org) sowie das Open Access Directory zu Forschungsdaten. Eine gezielte Suche nach Fachrepositorien, die auch eine Datenablage erlauben, bietet der auf re3data basierende Repository Finder.

Bei der Entscheidung für ein bestimmtes Repositorium können Ihnen folgende Punkte helfen:

  • Handelt es sich um ein fachlich passendes Repositorium? Ist es etabliert und an spezifische Suchportale angebunden?
  • Bietet das Repositorium die gewünschten Services (PIDs, Open Access, differenzierte Zugriffsrechte (z.B. Nutzungsverträge), Realisierung von Embargo-Fristen)
  • Ist die Nachhaltigkeit des Repositorium gewährleistet? Gibt es eine Exit-Strategie bzw. eine Übereinkunft zur Erhaltung der Daten bei z.B. Wegfall der Finanzierung?
  • Wie sind Datenüberlassung und Datennutzung inhaltlich und formal geregelt?

Die Universität Kassel stellt außerdem allen Forschenden, die kein fachspezifisches Repositorium nutzen können oder möchten, (voraussichtlich ab Mitte Januar 2021) ein institutionelles Repositorium (DaKS) zur Verfügung, das sowohl die Funktion der Archivierung als auch der Publikation erfüllt (siehe auch "Daten archivieren und puiblizieren"). Dieses kann auch für studentische Projekte und Abschlussarbeiten genutzt werden

Darüber hinaus stehen fachübergreifende Repositorien für Forschungsdaten wie das EU-geförderte ZENODO, Dryad oder figshare zur Verfügung.

    Zunächst ist es wichtig, dass die Daten in einem geeigneten Format vorliegen. Einige Repositorien machen hier strengere Vorgaben, andere sprechen lediglich Empfehlungen aus oder sind offen für alle Formate. Umso wichtiger ist es, diesbezügliche Überlegungen bereits im Vorfeld der Forschung anzustellen. Allgemeine Hinweise und spezifische Links zu Formaten finden Sie unter ↗Welche Dateiformate sind sinnvoll?

    Damit Daten gefunden und sinnvoll genutzt werden können, müssen sie durch Metadaten genauer dokumentiert sein. Beachten Sie hierzu bitte die detaillierten Hinweise unter ↗Was sind Metadaten, Metadatenschemata und Dokumentationen?

    Ein Upload in ein Repositorium bedeutet nicht automatisch eine sofortige Veröffentlichung. Unter Umständen können Gründe für eine Embargo-Frist oder eine Teilveröffentlichung sprechen. Gerade in wirtschaftsnahen Forschungsdisziplinen sind Embargos für Forschungsergebnisse üblich. Bedenken Sie deshalb, ob gewichtige Gründe gegen eine sofortige Veröffentlichung sprechen. Siehe hierzu ↗Spricht etwas gegen eine Veröffentlichung?

    Überlegen Sie außerdem, unter welchen Bedingungen Sie Ihre Daten veröffentlichen wollen. Hierzu existieren verschiedene Lizenzmodelle (↗Welche Lizenz soll ich wählen?)

    Das Hochladen Ihrer Daten ist nicht mit dem freien Zugriff gleichzusetzen. Grundsätzlich können Sie Forschungsdaten auch verzögert publizieren oder lediglich die Metadaten zugänglich machen. Im Falle einer tatsächlichen Veröffentlichung können Sie über die Lizenz oder Verträge die Rechte auf Zugriff und Bearbeitung detailliert regeln (↗Kann ich die Nutzung meiner Daten dann überhaupt kontrollieren?). Diese Möglichkeiten können im Wesentlichen beschränkt werden durch:

    • die spezifische Anforderungen und Policies Ihrer Forschungsförderer und/oder Verleger
    • fehlende/begrenzte Rechte an den Daten
    • Datenschutzrechtliche Einschränkungen
    • Einschränkungen auf Seiten des Repositoriums

    Es gibt Konstellationen, unter denen eine Veröffentlichung der Daten nicht oder nur unter bestimmten Bedingungen erfolgen sollte. Wichtigste Voraussetzung für eine Veröffentlichung ist, dass Sie über das Recht hierzu verfügen (↗Wer darf über die Weitergabe und Veröffentlichung von Daten entscheiden?Besitze ich das Urheberrecht an meinen Daten?).

    Zum anderen kann es sich um vertrauliche, personenbezogene Daten handeln, die nur nach Anonymisierung oder mit Einverständnis der Betroffenen veröffentlicht werden dürfen (↗Welche datenschutzrechtlichen Beschränkungen muss ich beachten?).

    Recht­li­che As­pek­te

    Unter personenbezogenen Daten versteht man "Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person" (§ 3 Abs. 1 BDSG). Sie unterliegen in ihrer Erhebung, Nutzung und Weitergabe strengen Vorgaben. Für die Archivierung, Bereitstellung und Veröffentlichung sollten Informationen, die einer bestimmten oder bestimmbaren Person zugeordnet werden können, aus den Forschungsdaten entfernt werden. Abhängig von den Daten eignen sich hier verschiedene Wege der Anonymisierung.

    Anleitungen finden Sie beim ForschungsdatenZentrum Bildung. Darüber hinaus existieren verschiedene Werkzeuge zur Anonymisierung von Daten wie ARXsdc-micro oder das Anonymisierungstool der TMF.

    Sollen personenbezogene Daten verarbeitet werden, muss in der Regel die Einwilligung der betroffenen Person eingeholt werden. Hierbei muss u.a. der Zweck klar definiert werden und die betroffene Person die Folgen abschätzen können

    Darüber hinaus können Forschungsdaten wie etwa Unternehmensdaten vertrauliche Informationen enthalten (Know-How-Schutz) oder Vertraulichkeits- und Geheimhaltungsvereinbarungen getroffen worden sein, die eine Veröffentlichung ausschließen.

    Mögliche Besitzer oder Mitbesitzer der Rechte an den Daten sind die Forschenden, der Arbeitgeber, der Auftraggeber, Forschungsförderer und/oder (privatwirtschaftliche) Vertragspartner. Wer über die Weiterhabe oder Veröffentlichung von Forschungsdaten mitentscheiden darf oder gefragt werden muss, bestimmt sich über die Vertragsverhältnisse. Üblicherweise sind Ergebnisse weisungsgebundener Forschung Eigentum des Arbeit- bzw. Geldgebers. Anders verhält es sich bei eigener Forschung, über deren Daten Forschende selbst bestimmen dürfen.

    Forschungsobjekte und vereinzelt auch Forschungsdaten können als Werk im Sinne des Urhebergesetzes geschützt sein. Das können sein Sprachwerke, Computerprogramme, Musikwerke, Pantomimische Werke einschließlich Werke der Tanzkunst, Werke der bildenden Künste einschließlich der Werke der Baukunst und der angewandten Kunst, Lichtbildwerke, Filmwerke und Darstellungen wissenschaftlicher und technischer Art. 

    In der Regel fehlt Forschungsdaten aber die notwendige Schöpfungshöhe und sie sind keine Werke. In Betracht kommt aber, dass bestimmte Arten von Forschungsdaten unter ein Leistungsschutzrecht fallen, zum Beispiel Lichtbilder, Laufbilder oder Tonträger.

    Oft sind die Forschungsdaten eines Forschungsvorhabens aber als Teil eines Datenbankwerks urheberrechtlich geschützt oder fallen unter das Leistungsschutzrecht für Datenbanken.

    Forschungsdaten, die nicht unter ein Schutzrecht fallen, können in der Regel von jedermann ohne eine Genehmigung oder Zahlungsverpflichtung zu jedem beliebigen Zweck verwendet werden.

    Sofern Sie ein Urheberecht oder Leistungsschutzrecht über Forschungsdaten besitzen, können Sie verschiedene Aspekte der Nutzung über entsprechende Verträge regulieren, wie etwa Art und Weise der Nutzung, Nutzergruppen und –zeitraum, Zweck etc. Da vertragliche Einzelfallregelungen praktisch sehr aufwendig wären, existieren verschiedene Lösungen der standardisierten Regelungen von Nutzungsrechten. So bietet beispielsweise das Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) Standardverträge für die Nutzung der psychologischen Daten und GESIS regelt über Nutzungsverträge die Zugangsbeschränkungen für besonders sensible sozialwissenschaftliche Daten. Wenn Ihre Daten keiner spezifischen Zugriffs- oder Nutzungsbeschränkung unterliegen sollen, bietet sich die Verwendung standardisierter Lizenzen wie Creative Commons oder Open Data Commons an (↗Welche Lizenz soll ich wählen?).

    Die Veröffentlichung von Daten unter einer bestimmten Lizenz erlaubt eine detaillierte Festlegung der zulässigen Form ihrer Nutzung. Sie schaffen Rechtssicherheit sowohl auf Seiten der bereitstellenden als auch der nutzenden Person. Auch bei dem Verzicht auf jegliche Beschränkungen ist es daher wichtig, diesen zu formulieren.

    Wenngleich Daten selbst in der Regel nicht dem Urheberrecht unterliegen, spricht doch einiges dafür, sie als potentiell schützenswert zu behandeln, nicht zuletzt um den eigenen Vorstellungen der Weiternutzung Ausdruck zu verleihen. Hierfür bieten sich verschiedene Lizenzmodelle an. Das verbreitetste unter ihnen ist ‚Creative Commons‘ (CC). CC-Lizenzen sind unabhängig vom lizenzierten Inhalt und decken Urheberrechte, Leistungsschutzrechte und in der aktuellen Version – sofern existent – auch Datenbankherstellerrecht ab.

    Speziell für die Veröffentlichung von Daten ist das Lizenz-Paket ‚Open Data Commons‘ der Open Knowledge International (ehemals Open Knowledge Foundation) konzipiert worden. Neben der bedingungslosen Lizenz (Open Data Commons Public Domain Dedication and License (PDDL)) bietet es drei weitere Modelle:

    Unabhängig von Ihrer rechtlichen Verbindlichkeit erfüllt die Lizenz CC-BY die Idee von Open Access und Open Science sicherlich am ehesten, wogegen die ‚Weitergabe unter gleichen Bedingungen‘ zu Kompatibilitätsproblemen mit anderen Lizenzen, das Verbot von Bearbeitung zu Einschränkungen bei Nutzung durch z.B. Data-Mining oder auch zu Problemen bei der Langzeitarchivierung führen kann. Das Verbot kommerzieller Nutzung erschwert die Verwendung in kommerziellen Datenbanken und reduziert damit potentiell die Sichtbarkeit Ihrer Forschung (für Details vgl. Paul Klimpel, 2012).

    Welche Lizenz Sie auch wählen – Sie sollten eine bewusste und informierte Entscheidung treffen.
    Eine ausführlichere Auseinandersetzung mit der Thematik finden Sie bei Andreas Wiebe &  Lucie Guibault (2013).

    Unabhängig von den Nutzungsbedingungen gelten selbstverständlich die Regeln guter Wissenschaftlicher Praxis, die eine Angabe der Quelle verwendeter Daten fordern.

    Fin­den und Nut­zen von For­schungs­da­ten

    Nicht zuletzt durch die Vorgaben und Empfehlungen von Förderern, Verlagen und Institutionen zur Zugänglichmachung von Daten stehen zunehmend Forschungsdaten für die Nachnutzung zur Verfügung. Um geeignete Forschungsdaten für den eigenen Forschungsbereich zu finden,  bieten oft einschlägige Angebote aus dem eigenen Fachgebiet die erste Anlaufstelle. Dies können institutionelle oder fachliche Repositorien oder auch Datenjournale sein. Repositorien können Sie – nach Fachgebiet aufgeschlüsselt – über den Repository Finder recherchieren. Eine – längst nicht erschöpfende – Liste von Datenjournalen finden Sie hier.

    Darüber hinaus besteht auch die Möglichkeit, Daten mit Hilfe generischer Suchdienste über mehrere Repositorien hinweg zu recherchieren. Ein großer Nachteil dieser Suchdienste besteht darin, dass sie die detaillierten Metadatenschemata ihrer Quellen oft nicht adäquat abbilden können. Zudem unterscheiden sich die die jeweiligen Metadaten stark dahingehend, was sie identifizieren, also einzelne Daten, Datensets oder –Sammlungen.

    Zu den bekanntesten Portalen gehören:

    Ruft Metadaten von Repositorien und Datenbanken über OAI-PMH ab. Forschungsdaten sind über die Dokumentart „Primärdaten“ zu finden.

    Durchsucht Metadaten aus verschiedenen Quellen wie CLARIN oder Global GBIF.

    Durchsucht Metadaten von Informationsobjekten, u.a. Forschungsdaten (Objekttyp ‚Dataset‘), die bei DataCite mit DOIs registriert sind. Die Metadaten werden z.T. auch von den anderen beiden Diensten abgefragt.

    Enthält frei zugängliche Forschungsergebnisse aus EU-geförderten Projekten

    • Google Dataset Search (proprietär!)
    • gesisDataSearch - Suche von Daten zur Sozial- und Wirtschaftsforschung in Datenrepositorien und Metadatendiensten
    • VerbundFDB - Suche von Studien, Forschungsdaten und Instrumenten der empirischen Bildungsforschung

    Für die Nachnutzung selbst sind die jeweiligen Rechte (Lizenzen, ggf. Nutzungsverträge) bindend. Sie können u.a. festlegen, wer die Daten zu welchem Zweck und für welche Zeit nutzen darf.

    Um Forschungsdaten nachnutzen zu können, ist vor allem die Qualität der Daten entscheidend. Datenqualität im Forschungsdatenmanagement umfasst insbesondere folgende Bereiche:

    • Datenformat (spezielle Speicherformate wissenschaftlicher Daten, wie z.B. Vektorformat, Rasterformat und Eigenschaftsformat, etc.)
    • Datenvollständigkeit und Datenrichtigkeit

    Der Leibniz Data Manager ist ein kostenfreier Prototyp, der hier exemplarisch für ähnliche Tools steht:

    Leibniz Data Manager ermöglicht die Visualisierung verschiedener Forschungsdatenformate, wodurch das 'Screening' von Datensätzen auf ihren potentiellen Nutzen möglich wird. Als Visualisierungs- und Management-Tool unterstützt es die Verwaltung und den Zugriff auf heterogene Forschungsdatenpublikationen, und somit die Forscherinnen und Forscher bei der Auswahl relevanter Datensätze für ihre jeweiligen Disziplinen.

    Derzeit ist ein Prototyp des Leibniz Data Managers verfügbar und bietet zahlreiche Funktionen zur Visualisierung von Forschungsdaten.

    Um die (Nach-)Nutzung von eigenen und fremden Forschungsdaten im Sinne der Guten Wissenschaftlichen Praxis adäquat zu dokumentieren, ist eine korrekte Datenzitation unerlässlich.

    Im Falle von Fremddaten wird hierdurch außerdem die wissenschaftliche Leistung ihrer ‚Urheber‘ gewürdigt. Wie bei der Zitation von anderen Publikationen können die Konventionen zur Zitation von Daten formal abweichen. Inhaltlich verbindet sie jedoch der Anspruch einer eindeutigen Identifizierbarkeit der Datenquelle. Die FORCE11 Data Citation Synthesis Group hat Empfehlungen zur Datenzitation erarbeitet. Ihnen zufolge umfasst eine vollständige Datenzitation

    Autor(en), Jahr, Titel der Forschungsdaten, Datenrepositorium oder Archiv, Version, weltweit Persistenter Identifikator

    Weitere optionale Angaben, die im Rahmen einer Zitation sinnvoll sein können, sind Edition, Feature name and URI, Resource type, Publisher, Unique numeric fingerprint (UNF) und Location (vgl. Alex Ball & Monica Duke (2015). How to Cite Datasets and Link to Publications).


    Sofern nicht anderweitig gekennzeichnet sind alle Texte dieser Seite und Ihrer Unterseiten lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.