Arbeitskreis Forschungsdaten

Admin

Materialien

Praesentationen und Zusammenfassungen vom 3. Workshop

Vorträge

Stefan Winkler Nees: Wissenschaft, Datenmanagement, Forschungsförderung

Mathis Fräßdorf: Wohin mit den Daten?

Die Angebote des World-Café:

Session 1 – Datenmanagementpläne
Mit den „Grundsätzen guter wissenschaftlicher Praxis“ sind Maßstäbe gesetzt worden, die in jetziger Zeit durch weitere Aspekte des Umgangs mit Forschungsdaten erweitert werden müssen. Die Bedeutung der Datenbasis für die wissenschaftliche Arbeit ist gewachsen ebenso wie die Möglichkeiten, diese Daten aufzubewahren. Forschungsdatenmanagement ist von einem Fremdwort zu einer ernstzunehmenden Aufgabe geworden. Wir möchten diskutieren, wie die Situation in den WGL-Instituten ist. Welche Ansätze sind hier erfolgsversprechend? Welche Hürden sind zu nehmen?

Zusammenfassung:

Bezüglich der Situation in den Instituten lässt sich zusammenfassend feststellen, dass nur in sehr wenigen Instituten bereits Forschungsdatenmanagementpläne implementiert wurden. Insbesondere dann liegen solche vor, wenn die Datenerhebung, -aufbereitung bzw. -haltung zum Kerngeschäft der Einrichtung gehört. Einige zusätzliche Einrichtungen bereiten eine Einführung eines Forschungsdatenmanagementplanes vor.

In den Diskussionen wurde festgestellt, dass die wichtigste Frage zu Beginn der Einführung eines Forschungsdatenmanagementplanes, die Klärung der Datenlage ist: Welche Daten werden im Institut von wem erhoben, gehalten und ausgewertet? Welche Daten sollen an wen weitergegeben werden? Welche Daten sollen überhaupt und für wie lange aufbewahrt werden? Forschungsdaten­management­pläne für einzelne Bereiche oder Arbeitsgruppen können ein guter Startpunkt sein, um die Komplexität zu verringern. Dennoch ist eine zentrale, aber flexible Infrastruktur in der Einrichtung für die Archivierung der Daten hilfreich bzw. notwendig. Die Erstellung eines Forschungsdaten­managementplans ist eine Querschnittsaufgabe. Für die Einführung ist ein Bottom-up-Ansatz hilfreich, der sowohl die Wissenschaftlerinnen und Wissenschaftler als auch die IT bei dem Aufbau der notwendigen Infrastruktur mit einbezieht.

Ein Forschungsdatenmanagementplan soll den gesamten Lebenszyklus der Daten abdecken. Als Bausteine wurden unter anderem die folgenden Punkte genannt:

  • Datendefinition (Für welche Daten gilt der Forschungsdatenmanagementplan?)

  • Definition von Verantwortlichkeiten (Wer übergibt die Daten an wen? Wer entscheidet, welche Daten aufbewahrt werden?)

  • Festlegung eines Mindeststandards für Metadaten

  • Festlegung der Zugriffsrechte

  • Festlegung des Speicherorts und der Speicherdauer

Bei der Weitergabe der Daten an externe Wissenschaftlerinnen und Wissenschaftler sind fast alle Institute weiterhin sehr zurückhaltend. Von einigen Teilnehmenden wurde ein Kulturwandel, hin zu der Auffassung, dass die Weitergabe der eigenen Daten sinnvoll und wichtig ist, eingefordert.

Weitere Hinweise und Uebersichten zum Thema

Session 2 – Metadaten und Infrastruktur:
Mit der zunehmenden Bedeutung der Nachnutzung von Forschungsdaten und Replikationsstudien, sowie dem Aufbau adäquater Infrastrukturen werden für die Wissenschaftler mehr und mehr Möglichkeiten und Anreize geschaffen, qualitativ hochwertige Daten bereitzustellen. Neben der langfristigen Sicherung ist aber auch eine qualitative hochwertige Beschreibung der Daten und die Erfassung von Kontextinformationen aus dem Forschungsumfeld unerlässlich, um eine wissenschaftliche Nachnutzung zu ermöglichen. Es werden daher Forschungsinformationsinfrastrukturen, Metadaten, semantische Netze und Wissensmanagement vor dem Hintergrund des Umgangs mit Forschungsdaten diskutiert. Die steigende Komplexität und Vielfalt an Daten, schnell wachsende Datenmengen, eingeschränkte Nutzungsrechte sowie möglicherweise eine Viel-zahl an beteiligten Institutionen erschweren dabei ein langfristiges Management nicht nur von Forschungsdaten, sondern auch der zugehörigen Metadaten.

Zusammenfassung:

Die Session “Metadaten und Infrastruktur” diskutierte in den unterschiedlichen World Cafe Runden intensiv das Thema Metadaten und deren Erstellung bzw. Nutzung in den einzelnen Disziplinen.

Zu Beginn der Diskussion wurde meist schnell deutlich, das unterschieden werden muss zu welchen Zweck Metadaten erhoben werden sollen, da dies sehr unterschiedliche weitere Vorgehensweisen impliziert:

  • Wozu werden Metadaten benötigt?
  1.  Zum Auffinden von Daten – mit einfachen Standards möglich (Dublin Core/DataCite), Unterstützung bei Erstellung z.B. durch Bibliothek oder Sekretariat
  2.  Zur Nachnutzung – Erklärung eines Datensatzes, so dass es möglichst wenige Rückfragen an Urheber geben muss, Erstellung durch Wissenschaftler notwendig
  3.  Zur Verwaltung und Management z.B. Pfad zu Daten, Nutzungsrichtlinien, Format
  4.  Zur Vernetzung – wie häufig wird ein Datensatz genutzt, Zitation von Datensätzen. Erstellung erst nach Veröffentlichung der Metadaten. Mehr Infos unter <http://www.komfor.net/data-and-metadata.html>

Einig waren sich alle Diskussionsteilnehmer, das der ideale Zeitpunkt zur Erstellung der Metadaten für eine Nachnutzung parallel zur Erzeugung der eigentlichen Forschungsdaten liegt. Zwar wird dies vom Forscher oftmals als eine Belastung angesehen, der Aufwand für eine nachträgliche Erhebung ist jedoch ungleich höher oder gar nicht mehr möglich.

Eine damit verbundene (aber nicht identische) Frage wurde dabei oft diskutiert: Wer ist zuständig dafür, dass Daten und ihre Metadaten nachvollziehbar sind?

Inhaltlich ist dies natürlich der Forscher, nur er kennt seine Daten gut genug. Aber es wurde auch immer wieder deutlich, das auch die Ebene der Abteilungs- bzw. Institutsleiter oder die Institution hier gefragt sind.  Der entsprechende Forscher, braucht als Mitarbeiter auch die Zeit für eine qualitativ gute Datenbeschreibung. Die Institution kann durch eine Datenpolicy die Bedeutung von Nachnutzung der Forschungsdaten festlegen, oder einen Datenmanager einstellen zu Unterstützung der Wissenschaftler.

Dass die Erstellung von Metadaten für die Wissenschaftler nicht nur zusätzliche Arbeit mit sich bringt, sondern eine funktionierender Metadateninfrastruktur auch Vorteile besitzt wurde mit den folgenden Punkten unterstrichen:

  • Vorteile für Forscher:
    1. eigene Daten bleiben langfristig nachvollziehbar,
    2.  sauberes wissenschaftliches Arbeiten kann nachgewiesen werden.
    3.  Pflichterfüllung bei Journalen und Geldgebern, die Datenmanagement verlangen
  • Vorteile für Institution:
    1.  Finanzieller Nutzen, wenn Daten nur 1x erhoben/erworben werden und bei Personalwechsel für andere Mitarbeiter nachvollziehbar erhalten bleiben.

Insgesamt wurde deutlich, das es für zur Steigerung der Nachnutzung von Forschungsdaten auch einer besseren Kultur zur Erstellung von Metadaten und deren Bereitstellung braucht. Die folgenden Vorschläge wurde dabei aufgebracht, um dies zu erreichen:

  1.  Datenmanager als Ansprechpartner für Wissenschaftler
  2. Niedrigschwellige technische Systeme mit z. Bsp. Vorschlaglisten
    •  Problem: Vokabular wird selbst innerhalb von Disziplinen nicht einheitlich verwendet. Kontrollierte Thesauri als Lösung?
  3.  Würde man die Metadatenerhebung abhängig machen von der Relevanz der Daten könnten Ressourcen gespart werden, aber: Was sind wichtige, zitierwürdige Daten? Dies ergibt sich möglicherweise erst, wenn es zu spät ist.
  4. Journale und Geldgeber – könnten (finanzielle) Anreize setzen bzw. Druck ausüben
    • Wenn eine Publikation geschrieben wird, müssen sowieso die genutzten Daten und Methoden beschrieben werden. Der Schritt zu “ordentlichen” Metadaten ist nicht mehr weit.
  5. Kleine Schritte hin zu einem langsamen Kulturwandel erscheinen Erfolg versprechender.

 

Session 3 – Rechtliche Rahmenbedingungen:

Folien: Berlin World-Café English for sharing

Die Möglichkeiten, Forderungen nach freiem Zugang zu wissenschaftlichen Daten umzusetzen, werden erheblich begrenzt durch die schutzwürdigen Interessen Dritter. Einen wichtigen Bereich in diesem Zusammenhang bildet das Persönlichkeitsrecht. Der Datenschutz soll sicherstellen, dass die Persönlichkeitsrechte bei der Verarbeitung von Daten gewahrt bleiben. Aus den Daten¬schutz-Prinzipien der Datensparsamkeit und der Erforderlichkeit kann die Verpflichtung abgeleitet werden, die Daten löschen zu müssen, wenn sie für den ursprünglichen Zweck nicht mehr benötigt werden. Auch das Prinzip der Zweckbindung kann mit der Forderung nach freiem Zugang zu Forschungsdaten im Kon-flikt stehen. Einen Ausweg kann in bestimmten Fällen die Verwendung pseudonymisierter oder anonymisierter Daten bieten.
Ein weiterer wichtiger Bereich ist das Urheberrecht, also der Schutz des geistigen Eigentums. Mit dem Urheberrecht sind das Veröffentlichungsrecht, das Recht auf Anerkennung der Urheberschaft und das Recht, die Entstellung oder sonstige Beeinträchtigung des Werks zu unterbinden, verbunden. Basierend auf dem unveräußerlichen Urheberrecht, kann die Verwertung der Werke vertraglich geregelt werden, um z.B. ein Werk auf eine oder mehrere Arten nutzen zu dürfen.
Der dritte relevante Bereich, auf den hier aber nicht näher eingegangen wird, ist das Patentrecht.

Zusammenfassung:

Als juristischer Fachmann konnte Herr Pawel Kamocki vom IDS Mannheim als Referent gewonnen werden. Herr Kamocki gibt einen Überblick über drei rechtliche Themenbereiche, die im Zusammen­hang mit der Weiternutzung von Forschungsdaten relevant sind:

  • Urheberrecht
  • „Sui-generis“ Recht für Datenbanken (EU Datenbankrichtlinie)
  • Datenschutz

Beim Urheberrecht handelt es sich um den Schutz des geistigen Eigentums an Werken der Literatur, Wissenschaft und Kunst. Auch abgeleitete Werke und Zusammenstellungen können unter das Urheberrecht fallen. Wesentlich ist, dass es sich bei dem betroffenen Werk um eine persönliche geistige Schöpfung handelt. Inhaber des Rechts sind die Urheber und deren Erben. Das Urheberrecht erlischt 70 Jahre nach dem Tod des letzten Urhebers.

Das „Sui-generis“ (lat.: eigener Art) Recht für Datenbanken beruht auf der Datenbank-Richtlinie der EU (96/9/EG). Es handelt sich um ein Recht zum Schutz von Investitionen. Eine Datenbank ist eine Sammlung von Werken oder Daten, die systematisch oder methodisch angeordnet sind, und auf die einzeln zugegriffen werden kann. Entscheidend für den Schutz ist, dass zur Erstellung der Datenbank eine „wesentliche Investition“ in Form von Zeit oder Geld erforderlich war. Inhaber des Rechtes ist der Investor. Das Recht endet 15 Jahre nach der letzten wesentlichen Investition.

Beim Datenschutz handelt es sich um den Schutz personenbezogener Daten. Diese dürfen nur erhoben werden, wenn es eine Rechtsgrundlage gibt, ein berechtigtes Interesse besteht oder der Betroffene freiwillig und schriftlich einwilligt. Sensible Daten wie z.B. Krankheits­daten sind besonders geschützt. Der Datenschutz ist in Deutschland durch das Bundes­datenschutzgesetz und diverse Landesdatenschutzgesetze geregelt.

Die Diskussion behandelte  verschiedene Fragen, die jedoch nur zum Teil geklärt werden konnten:

  • Kann ein Institut seine Mitarbeiter verpflichten, Forschungsdaten öffentlich zur Verfü­gung zu stellen?
  • Kann der Teilnehmer einer Befragung verlangen, anonymisierte Daten zu löschen?
  • Wie weit ist die internationale Vereinheitlichung des (deutschen) Urheberrechts oder des (amerikanischen) Copyrights?
  • Welchen Einfluss hat die Kooperation mit privaten Partnern?
  • Wo ist die Abgrenzung zwischen Erfindung und Entdeckung?
  • Wie können die Institute den Upload geschützter Werke in „soziale Netzwerke“ (z.B. Research-Gate oder Facebook) verhindern?
  • Wie ist die Situation, wenn es mehrere Rechteinhaber gibt?
  • Welche Rechte haben die Mitarbeiter und welche Rechte haben die Institute an den gewonnenen Daten?
  • Welches lokale Landesdatenschutzgesetz gilt für bestimmte Daten?

Die offenen Fragen machen deutlich, dass es ist nicht ausreichend ist, sich auf die Wissen­schaftsfreiheit zu berufen. Es ist in jedem Fall erforderlich, sich mit den rechtlichen Fragen vertraut zu machen, und dies im Falle einer juristischen Auseinandersetzung auch nachwei­sen zu können. Erst auf Grundlage dieser Informationen sollten  Entscheidungen getroffen werden.

Session 4 – Publikation und Nachnutzung von Forschungsdaten:
Forschungsdaten sind Grundlage wissenschaftlicher Erkenntnisse und sind somit ein essentieller Teil in Wissenschaft und Forschung. Die Datenproduktion hat im digitalen Zeitalter stark zugenommen und das Interesse an der Nutzung dieser Daten findet immer größeren Anklang. Durch fehlende Infrastruktur in einigen Disziplinen sowie fehlenden Datenmanagement ist jedoch eine Nachnutzung von Forschungsdaten derzeit oft nur eingeschränkt möglich. Auch Publikationsprozesse für Daten sind wenig etabliert neben der noch immer dominierenden traditionellen wissenschaftlichen (Text-/Verlags-)Publikation. Welche Ansätze zur Publikation von Forschungsdaten gibt es bereits und was sind die Unterschiede zur traditionellen Publikation? Diese und andere Fragen zu Publikation und Nachnutzung von Forschungsdaten sollen in dieser Session thematisiert werden.

Zusammenfassung:

Die Session 4 „Publikation und Nachnutzung von Forschungsdaten“ diskutierte in den verschiedenen World-Café Runden das Thema des unterschiedlichen Umgangs mit Forschungsdaten in den verschiedenen Fachdisziplinen. Zunächst wurde deutlich, dass eine allgemein verständliche Definition von Forschungsdaten nicht existieren kann, da jede Fachdisziplin individuelle Anforderungen hat. Damit eng verknüpft ist auch der jeweilige Publikationsprozess der Daten. Während in einigen Disziplinen Rohdaten von Bedeutung sind, werden in anderen Disziplinen hauptsächlich prozessierte Daten für die Nachnutzung bereitgestellt bzw. nur Teile davon, die sich auf eine konkrete Publikation beziehen. Grundsätzlich fehlt jedoch in den meisten Institutionen ein standardisierter Publikationsprozess. Häufig wurde berichtet, dass es die Wissenschaftler selbst seien, die wenig an einer Datenpublikation interessiert sind. Begründet wurde dies damit, dass einerseits die Aufbereitung und Dokumentation von Daten mit teils erheblichem Mehraufwand verbunden seien oder die Daten für eine spätere weitere Verwertung vorgehalten werden sollen und es andererseits aber an entsprechenden Anreizsystemen mangelt – wie etwa aus der Veröffentlichung resultierender Reputationszuwachs -, die diese Nachteile aus Sicht der Wissenschaftler kompensieren könnten. Die Steigerung der Zitationsrate und dadurch eine Erhöhung der wissenschaftlichen Anerkennung durch Tools wie den Data Citation Index von Thomson Reuters bieten dabei eine Möglichkeit, die Wissenschaftler für das Thema zu sensibilisieren und zur Datenpublikation zu motivieren. Ein weiterer wichtiger Punkt ist die Sichtbarkeit und die Auffindbarkeit von publizierten Forschungsdaten. Dies kann auf unterschiedliche Weise realisiert werden. Sowohl disziplinspezifische als auch interdisziplinäre Ansätze haben dabei ihre Berechtigung mit jeweiligen Vor- und Nachteilen. Eine einheitliche Lösung für alles wird es nicht geben können und ist auf Grund unterschiedlicher Kulturen im Umgang mit Forschungsdaten in den verschiedenen Disziplinen auch nicht sinnvoll.

Des Weiteren wurde über mögliche Hindernisse bei der Datenpublikation diskutiert. Genannt wurden hier v. a. rechtliche Aspekte des Datenschutzes oder auch (Firmen-)Verträge bzw. Patentanmeldungen, die eine Publikation von Forschungsdaten erschweren und manchmal auch gänzlich verhindern. Aber auch die oftmals noch fehlenden Infrastrukturen zur nachhaltigen Archivierung der Daten oder das fehlende Wissen über bestehende Möglichkeiten wurden hier als Ursachen genannt. Weiterhin fehlen oftmals disziplinspezifische Kriterien zur Beurteilung der Relevanz der Daten, die zur Publikation ausgewählt werden sollen.

Fazit:

  • Unterstützung der Wissenschaftler durch Bereitstellung von Informationen, Tools und Infrastrukturen zur Publikation von Forschungsdaten (Templates für Metadaten, Anbindung externer Infrastrukturen, Aufbau eigener Repositories/Datenbanken, Etablierung von Standards zur Datenpublikation).
  • Schaffung eines Bewusstseins/Sensibilisierung für das Thema
  • Verlinkung von Daten mit zugehöriger wissenschaftlicher Publikation und Anerkennung der Datenpublikation als eigenständige wissenschaftliche Leistung