Workgroups
AG 1: Auffinden von Datensätzen (Enke, Goebel)
Ein Grund für die steigende Nachnutzung liegt auch in der besseren und einfacheren Verfügbarkeit von Forschungsdaten. Eine Vielzahl von Institutionen stellt heute eine noch viel größere Zahl von Datensätzen zu unterschiedlichsten Themen für die wissenschaftliche Forschung bereit. Forschungsförderer erkennen die verstärkte Bedeutung von Forschungsdaten und befördern die Nachnutzung von erstellten Daten, nicht zuletzt um eine effizientere Nutzung der Fördermittel zu erreichen, Fachzeitschriften verlangen zunehmend eine Übermittlung der verwendeten Datensätze und/oder der Syntax der entsprechenden Auswertung, oder wenigstens deren öffentliche Verfügbarkeit.
Hinsichtlich der Auffindbarkeit sollen insbesondere die folgenden Fragen diskutiert und Erfahrungen dazu ausgetauscht werden:
- Als Forscher: Wie finde ich die Daten, die ich brauche?
- Als Datenbereitsteller: Wie stelle ich Daten so bereit, dass Forscher sie finden?
- Wie kann die Auffindbarkeit von publizierten Daten verbessert werden?
Bericht: (tbd)
AG 2: Workflows für Datenpublikation (Mauer, Pilz, Lindstädt)
Es besteht weitgehend Konsens, dass die Publikation von Forschungsdaten viele Vorteile bringt. Es besteht eine große Heterogenität hinsichtlich der Art und Weise, wie und auf welchen Wegen Forschungsdaten in der Praxis für die Nutzung durch Dritte veröffentlicht werden. So werden Daten etwa in dezidierten (fachlichen oder überfachlichen) Forschungsdatenrepositorien veröffentlicht, im Zuge der Veröffentlichung eines Fachartikels als „supplementary material“ zur Verfügung gestellt oder es wird im Zuge der Veröffentlichung eines “data papers” auf sie verwiesen. Dabei variieren die verschiedenen Wege hinsichtlich einer Vielzahl von Faktoren, u.a. der erforderlichen Dokumentation, der Validierung und Qualitätssicherung (bspw. durch Peer Review), Versionierung, Vergabe von persistenten Identifikatoren sowie der Unterstützung von Datenzitationen. Auch hinsichtlich der Frage, wer mit welchen Aufgaben am Publikationsprozess beteiligt ist, lassen sich große Unterschiede beobachten. Die Diskussion der Arbeitsgruppe soll in erster Linie auf den praktischen Erfahrungsaustausch ausgerichtet sein.
Bericht AG 2:
Die Session zum Thema „Workflows für Datenpublikation“ wurde durch einen Impulsvortrag (Lindstädt) eingeleitet, in dem ein Überblick über die verschiedenen Möglichkeiten gegeben wurde, Daten zu publizieren. In der anschließenden Vorstellungsrunde erläuterten die Teilnehmer_innen die Relevanz des Themas für das jeweilige Arbeitsumfeld bzw. die eigene Institution. Wenngleich in der deutlichen Mehrheit der vertretenen Institutionen bereits Erfahrungen mit der Publikation von Forschungsdaten vorliegen, wurde jedoch deutlich, dass die Teilnehmer_innen Informationen, Unterstützung und Lösungen benötigen, um teils komplexe und wenig erprobte Publikationsprozesse von Forschungsdaten zu gestalten und effizient umzusetzen. Im Fokus steht dabei die Entwicklung von Serviceangeboten, die einen Mehrwert für Wissenschaftler darstellen und diese im Publikationsprozess unterstützen und entlasten. Schwierigkeiten entstehen vor allem durch fehlende oder unterentwickelte fachliche Standards für die Publikation von Forschungsdaten, Unsicherheit im Bereich des Urheberrechts und des Datenschutzes sowie dadurch, dass Arbeitsabläufe häufig neu entwickelt müssen, da es an bewährten Beispielen mangelt.
Fast durchgängig berichteten die Teilnehmer_innen, dass die Motivation zur Publikation von Forschungsdaten eher selten durch Wissenschaftler_innen selbst kommt, sondern eher auf externe Impulse reagiert wird. Dies können bspw. Datenpolicies von Fachzeitschriften oder Auflagen von Forschungsförderern bzw. Zuwendungsgebern sein. Aber auch institutionelle Policies zum Umgang mit Forschungsdaten oder Regeln zur Qualitätssicherung insbesondere mit Blick auf zukünftige Evaluierungen veranlassen Wissenschaftler_innen, sich mit Publikationsmöglichkeiten und – prozessen auseinanderzusetzen.
Die Auswahl der konkret zu publizierenden Daten wird meist nicht systematisch adressiert. In der Regel geht die Publikation eines Forschungsdatensatzes auf die Initiative einzelner Forscher_innen bzw. von Forschungsgruppen zurück, klare und transparente Entscheidungs- oder Auswahlkriterien sind eher die Ausnahme. Genannt wurde als Beispiel die Forderung einer Institutsleitung, dass Arbeitsgruppen den Bedarf an frei zugänglichen Datenbeständen selbst definieren sollen oder aber, dass bei kostenintensiven Messungen Daten zu veröffentlichen seien, um auf diesem Wege eine (zusätzliche) Legitimationsbasis für derartige Forschung zu schaffen.
Ein wichtiger Aspekt bei der Publikation von Forschungsdaten ist die Qualitätssicherung. Wie kann sichergestellt werden, dass die zu publizierenden Daten nachvollziehbar und vollständig dokumentiert sind und dass die Daten selbst konsistent und fehlerfrei sind. Damit eng verbunden ist die Frage, wer für qualitätssichernde Maßnahmen verantwortlich ist bzw. diese durchführt. Fragen der Qualitätssicherung sind nicht zuletzt von großem Interesse für die Teilnehmer_innen, da damit – je nach Ausgestaltung – hohe Arbeitsaufwände einhergehen können. Mehrheitlich wird die Verantwortung für die fachlichen Aspekte der Qualitätssicherung bei den jeweiligen Datenproduzenten gesehen, da nur diese über die notwendige fachliche Expertise verfügen. Servicebereiche hingegen können eher allgemeine Prüfroutinen etablieren und bei der administrativen, technischen und organisatorischen Durchführung der Publikation unterstützen.
Hinsichtlich der rechtlichen Fragen bei der Publikation von Forschungsdaten herrscht große Unsicherheit, insbesondere bezüglich Fragen des Urheberrechts, des Datenschutzes und dem Einsatz von Lizenzen, die die Nutzung der publizierten Daten durch Dritte regeln. Hervorgehoben wurde in der Diskussion die Notwendigkeit, verwendete Forschungsdaten adäquat zu zitieren. Dies kann u.U. Anreize setzen, eigene Forschungsdaten zu publizieren. Zusätzlich erlaubt dies publizierenden Institutionen, den Impact ihrer Forschungs- und Publikationsleistung besser nachzuweisen. Festzustellen ist jedoch, dass insbesondere hinsichtlich der Nachnutzung der publizierten Daten durch Dritte wenig Wissen vorhanden ist. Nur einige Teilnehmer_innen konnten berichten, dass an ihrer Institution bspw. nachgehalten wird, wie oft und zu welchen Zwecken publizierte Daten tatsächlich genutzt wurden oder überprüft wird, inwiefern am Institut produzierte und publizierte Daten in Fachbeiträgen zitiert werden. Dies hat nicht zuletzt damit zu tun, dass es derzeit noch keine guten technischen Werkzeuge und Informationssysteme gibt, die diese Informationen in systematischer Weise generieren könnten.
Fazit:
Obwohl bereits viele Einrichtungen Forschungsdaten publizieren und unterschiedliche Entwicklungsgrade bei der Etablierung von Workflows für Datenpublikationen erreicht haben, ist generell hohe Unsicherheit, mangelnde Kenntnis und fehlende Orientierung zu beobachten.
Neben Beratungsangeboten durch den AK Forschungsdaten und anderen Einrichtungen könnte es hilfreich sein, Fragen aus den Einrichtungen aufzunehmen und bestimmte Themen gezielt in Unterarbeitsgruppen des AK zu bearbeiten, um Lösungswege aufzuzeigen, den Austausch zwischen den Einrichtungen zu fördern und eine solide Wissensbasis zu schaffen.
AG 3: Anreize/Hemmnisse für die Datenpublikation – Was funktioniert? (Neumann, Schaffner)
Die Bereitstellung von Forschungsdaten wird auf vielen Ebenen begrüßt und als sinnvoll erachtet. Jedoch scheitern einzelne Forscher oftmals daran, Daten zur Verfügung zu stellen. Dabei ist es vor allem die (vermeintlich) zusätzliche Arbeit, die davon abhält, die Daten für die Veröffentlichung aufzubereiten. Zudem scheinen die Anreize für den Einzelnen zu gering, um sich der zusätzlichen Arbeit zu stellen, da eine Zitierung der Daten ggf. zu wenig „zählt“. In dieser Gruppe soll diskutiert werden, was Forscher davon abhält, die eigenen Daten veröffentlichen zu wollen, und welches Hilfen und Anreize der Institute sein können, diese Hindernisse abzubauen oder zu verringern. Mögliche Themen könnten in diesem Zusammenhang, neben der Zitierbarkeit der Daten, die referierte Veröffentlichung von Datenreports, Hilfestellungen bei der Erzeugung und Aufbereitung der Daten und vor allem der Metadaten sein. Neben einer kurzen Präsentation von einigen bestehenden Möglichkeiten sollen weitere in der Gruppe erörtert und diskutiert sowie Erfahrungen dazu ausgetauscht werden.
Bericht AG 3:
In der Arbeitssession zum Thema Anreize und Hemmnisse für die Datenpublikation wurde zunächst mit einem kurzen Impulsvortrag in das Thema eingeführt. Dabei wurde beleuchtet wofür eine Datenpublikation dienen kann, welche Hemmnisse und Bedenken bei den Forschenden dabei jedoch auftauchen und welche möglichen Anreize gesetzt werden können, um die Forschenden zur Datenpublikation zu bewegen.
Als mögliche Hemmnisse wurden der finanzielle Wert der Daten, Datenschutz, es handelt sich um personenbezogene Daten/ Einwilligung der Befragten fehlt, Unklarheiten über Eigentum der Daten (andere Autoren, kommerzielle Einrichtungen), Datenmanagement führt nicht zur wiss. Anerkennung (Publikation) (publish or perish), Datendokumentation ist arbeitsintensiv, Konkurrenzfähigkeit in der Wissenschaft oder Bedenken zum Urheberrecht (Kontrolle über eigene Daten) aufgeführt.
Aus der Diskussion wurde deutlich, dass für einige Beteiligten die Probleme vor allem im Bereich der (qualitativen) personenbezogenen Daten liegen. Hier können Daten nicht einfach unkompliziert publiziert werden und somit unbeschränkt der Öffentlichkeit zugänglich gemacht werden. Hier liegen die Herausforderungen vor allen darin, mit welchen Infrastrukturen Daten geregelt zugänglich gemacht werden können ohne datenschutzrechtliche Regelungen und Persönlichkeitsrechte zu verletzen.
Bei Daten, die anderen Forschern faktisch anonymisiert zur Verfügung gestellt werden könnten, gehört zu den Problemen, dass einerseits zu viele verschiedene Möglichkeiten und Lösungen der Vorgehensweise existieren und andererseits keine Einheitlichkeit bei den Vorgaben der Formate und der Metadaten besteht.
Anreize für Wissenschaftlerinnen und Wissenschaftler sind so gut wie nicht existent, während das Datenmanagement im Verhältnis dazu viel zu arbeitsintensiv ist. Nicht zuletzt fehlt in der Regel auch die Unterstützung aus den Institutsleitungen, da diese Arbeit nicht anerkannt oder teilweise sogar nicht gewollt ist. Wenn aber keine Mittel zur Verfügung stehen, dass sich mindestens eine Person mit dem Thema Datenmanagement beschäftigt, kann dieses nicht betrieben werden.
Zudem werden Leistungen im Bereich der Datenbereitstellung auch nicht in der Evaluation der Leibniz-Gemeinschaft berücksichtigt auch wenn der Zweck einzelner Institute oder Institutsteile per Definition darin liegt.
Anreize könnten hingegen durch die Zitierfähigkeit durch persistente Identifier, Data Journals / Publikation von Datenbeschreibungen, Unterstützung durch Datenzentren / Repositorien bei Metadatenvergabe, Sichtbarkeit der Daten und Forschung, Langzeitverfügbarkeit der Daten durch Publikation in Repositorien/Schutz vor Datenverlust, Kollaborationen mit anderen Forschern (Daten als Verknüpfung), Erhöhung der Reputation und Anforderung der Forschungsförderer (Datenpublikation als Förderbedingung) ergeben.
Hier zeigte sich in der Diskussion, dass die Zitierfähigkeit und damit auch die Zitate kaum nachgehalten wird. Entsprechend scheint dies zumindest bisher noch nicht als starker Anreiz zu wirken. Datenveröffentlichungen zählen meistens vom „impact“ der jeweiligen Zeitschrift weniger als andere Veröffentlichungen und sind damit alleine auch nicht als Anreizfaktor geeignet. Hingegen wurde die Langzeitverfügbarkeit der Daten und Aufbereitungscodes als gutes Anreizmittel gesehen, wenn den Forscherinnen und Forscher klar wird, dass sie dadurch Verantwortung abgeben können. Dies kann dann insbesondere der Fall sein, wenn Standards und Vorgaben für Metadaten vorliegen und die Datenzentren/Repositorien Hilfestellungen leisten.
Grundsätzlich wurde deutlich, dass die Disziplinen sehr unterschiedlich mit ihren Daten umgehen und die Institute bzw. auch die Disziplinen sich in sehr unterschiedlichen Entwicklungsphasen in Bezug zum Umgang mit den Daten befinden.
Es wurde der Wunsch nach mehr Struktur (wie zum Beispiel die Unterstützung der Forscher im Datenmanagement, bei der Speicherung und standardisierten Ablage von Daten) und nach Zusammenarbeit und Vernetzung geäußert.