Eine grüne Labortür. Durch das runde Fenster seiht man gelbe Funken, als ob im Labor etwas magisches passieren würde.
Open Research Data

So offen wie möglich, so geschützt wie nötig 

29.11.2024
2/2024

Das Teilen von Forschungsdaten ist ein wichtiger Bestandteil von Open Science. Aber dürfen überhaupt alle Daten geteilt werden und ist es auch sinnvoll? 

«Forschungsergebnisse können nur dann transparent nachvollzogen werden, wenn man auch die Daten kennt, auf denen sie basieren», sagt Simon van Rekum. Er arbeitet im Bereich Research & Infrastructure an der Hochschulbibliothek der ZHAW und leitet das interne Projekt «DSembedded», das Forschende im Forschungsdatenmanagement unterstützt. Die in der Schweiz seit Juli 2021 geltende Nationale Strategie für Open Research Data (ORD) hat zum Ziel, den Umgang mit Forschungsdaten so offen wie möglich zu gestalten. Die ZHAW fördert diese Praxis mit verschiedenen Projekten. Beim Teilen von Forschungsdaten geht es aber nicht nur darum, Forschungsergebnisse nachvollziehbar zu machen. «Man will ermöglichen, dass Daten nachgenutzt werden können», sagt van Rekum, dessen Arbeitsschwerpunkte Open Science und Research Data Management sind. «Nachnutzen» bedeutet hier: Wenn jemand eine wissenschaftliche Fragestellung mit Daten beantworten kann, die in einem anderen Forschungsprojekt bereits erhoben wurden, sollen die vorhandenen Daten genutzt werden können.

Um das zu ermöglichen, braucht es einerseits Infrastruktur und andererseits das Bemühen, Daten so aufzubereiten, dass sie tatsächlich verständlich und nützlich sind für andere. Vor allem Letzteres bedeute laut van Rekum oft einen Zusatzaufwand für die Forschenden. Darum das Projekt «DSembedded», wo Forschende andere Forschende in ihren Departementen dabei unterstützen, wissenschaftliche Daten systematisch zu organisieren, zu sichern und zu dokumentieren – und zwar von der Erhebung bis zur Archivierung. «Mit diesem internen Service möchten wir helfen beim Abwägen, ob und wie Daten geteilt werden sollten, wie sie schon zu Projektbeginn organisiert werden können, damit sie später nachvollziehbar sind, bis hin zu Fragen nach geeigneten Tools, um das Teilen der Daten zu erleichtern», so van Rekum. Dazu gehört auch die Frage nach dem richtigen Ort zur Veröffentlichung. Zurzeit gibt es verschiedene Cloud-Datenbanken, sogenannte Repositorien, die öffentlich zugänglich sind.

«Ob Forschungsdaten komplett offengelegt werden sollen, ist nicht generell mit Ja oder Nein zu beantworten.» 

Simon van Rekum, Projektleiter DSembedded 

Das Teilen von Beginn an mitdenken 

All diese Überlegungen haben sich auch Roman Grüter und Nils Ratnaweera gemacht, als sie ihr Forschungsprojekt «Auswirkungen des Klimawandels auf den Pfefferanbau» aufgleisten. Das Projekt untersuchte die Veränderungen der Anbaueignung von schwarzem Pfeffer weltweit unter aktuellen und zukünftigen klimatischen Bedingungen. Ratnaweera und Grüter machen nicht nur die Ergebnisse ihres Projektes öffentlich zugänglich, sondern auch alles andere – von den genutzten Rohdaten über die Skripts, die sie entwickelt haben, um die Szenarien für den Pfefferanbau auszurechnen, bis hin zu einem Teil der Korrespondenz, die sie während der Entwicklung miteinander geführt haben. Für diesen komplett offenen Weg haben sich die beiden gleich zu Beginn des Forschungsprojektes entschieden. «Wir haben als Ausgangslage selbst Daten verwendet, die offen zugänglich sind im Sinne von Open Science. Und wir sind dankbar dafür, dass wir diese globalen Daten nutzen konnten», so Ratnaweera.

Das vom Projektteam genutzte Tool ist ein Open-Source-Programm. Das Tool zeichnete den Coding-Weg auf: Die Entstehung des Codes, den Ratnaweera beim Programmieren des Tools für die Berechnung der verschiedenen Anbauszenarien geschrieben hat, ist von A bis Z gespeichert. Ebenso die Kommunikation, die bei Grüter und Ratnaweera währenddessen via Chat im selben Tool lief. Somit kann man von aussen den gesamten Entwicklungsweg nachvollziehen. Insbesondere das Veröffentlichen des Chat-Verlaufs kostete ein wenig Überwindung. «Es gab diesen Moment, in dem ich realisierte, was das eigentlich heisst. Man macht sich ja durchaus angreifbar», so Grüter. Schliesslich ist auch nachzulesen, wenn die beiden Forscher nicht einer Meinung waren oder sich gegenseitig auf mögliche Fehler hinwiesen. Dennoch war für beide immer klar, dass das der richtige Weg ist. «Es gibt in diesem Projekt schliesslich keine besonders schützenswerten Daten, deren Veröffentlichung heikel wäre. Also sprach von Anfang an alles dafür, alles zu teilen», so Grüter. 

« Firmen haben lange gehört, Daten seien das Gold des 21. Jahrhunderts. Wir können nicht erwarten, dass sie diese plötzlich herausgeben.»

Nima Riahi, Dozent am Institut für Datenanalyse und Prozessdesign

Nicht alle Daten können geteilt werden

Simon van Rekum sieht das genauso. Wo es möglich ist, rät er nicht nur dazu, die Daten zu teilen, sondern auch, Open-Source-Programme zu verwenden, damit die Hürden für eine Nachnutzung möglichst tief sind. Aber nicht immer ist alles möglich. Und nicht immer ist das Datenteilen so unbedenklich. «Die Frage, ob Forschungsdaten komplett offengelegt werden sollen, ist nicht generell mit Ja oder Nein zu beantworten», sagt er. Man müsse sich mehrere Fragen stellen: Handelt es sich zum Beispiel um ein vom Schweizerischen Nationalfonds SNF unterstütztes Projekt? Dann wäre das Teilen der Daten grundsätzlich Pflicht, weil der SNF seit 2017 eine Strategie der Open Research Data verfolgt. Darüber hinaus sollten sich Forschende früh im Projekt fragen, welchen Mehrwert die Forschungsdaten für Dritte haben könnten, wie dieser Nutzen im Verhältnis zum Aufwand steht, den das Teilen der Daten mit sich bringt, und natürlich, ob es sich um sensible oder anderweitig schützenswerte Daten handelt. «Personendaten müssen anonymisiert und bereinigt werden. Manchmal müssten aus einem Datensatz so viele Informationen entfernt werden, dass er für die Nachnutzung nicht mehr viel bringt», so van Rekum. Ähnliches komme vor, wenn Industriepartner in ein Forschungsprojekt involviert seien. 

Zielkonflikt bei Industriepartnerschaften

Solche Herausforderungen kennt zum Beispiel die School of Engineering. Es ist ein Zielkonflikt: Man möchte im Sinne der Wissenschaft möglichst viele Erkenntnisse und Daten teilen, steht gleichzeitig aber in der Pflicht von Auftraggebenden, die meist aus der Industrie kommen. Viele Forschungsprojekte werden hier in Zusammenarbeit mit Firmen umgesetzt, die Daten zur Verfügung stellen und die Forschung aus wirtschaftlichen Interessen in Auftrag geben. Dass diese Firmen bereit sind, Daten zu publizieren, ist eher eine Ausnahme. Nima Riahi und Reto Bürgin von der School of Engineering sind beide am Projekt «DSembedded» beteiligt und wissen auch von anderen Forschenden in ihrem Umfeld, wie viele Hürden es beim Teilen von Daten gibt. Manchmal liegt es ganz konkret am Datenschutz. Oft sind es aber auch politische Gründe oder der hohe Aufwand, den niemand zu finanzieren bereit ist. Ausserdem ist für die Firmen nur schwer abzuschätzen, welche Risiken das Teilen von Daten mit sich bringt. Was, wenn jemand mit den Daten auf Erkenntnisse stösst, die man selbst nicht hatte? Oder wenn in einem umfangreichen Datensatz etwas gefunden wird, was einem negativ ausgelegt werden könnte? «Sobald die Industrie involviert ist, wird es schwierig», fasst Bürgin die Situation zusammen. Anders als in der Wissenschaft sei es in der Wirtschaft nicht üblich, zu kooperieren, um vorwärtszukommen. Sondern hier bemühe man sich um Wettbewerbsvorteile. «Lange haben die Firmen gehört, Daten seien das Gold des 21. Jahrhunderts. Wir können nicht erwarten, dass sie diese plötzlich herausgeben», sagt Riahi. 

Anreize für Wirtschaft und Wissenschaft 

Dennoch sehen die beiden Möglichkeiten, das Teilen von Daten mehr zu fördern. Zum Beispiel mit künstlich erzeugten, sogenannt synthetischen Daten, die in Sachen Struktur und Eigenschaften nah an den originalen Daten sind, aber ohne die schützenswerten Anteile. Und wer weiss: Vielleicht könnte es dem Image einer Firma in Zukunft sogar zuträglich sein, wenn sie ihr Wissen und ihre Daten offener teilt. Auch über Anreize müsse man nachdenken. Hier sieht van Rekum auch für die Wissenschaft und auf Ebene der einzelnen Forschenden Potenzial. Er begrüsst die aktuellen Bemühungen, was das «Research Assessment», also die Bewertung von Forschung angeht. Bisher ist es für Forschende wichtig, möglichst viele Artikel zu publizieren, am liebsten in angesehenen Wissenschaftsmagazinen. Auf forschungspolitischer Ebene gibt es nun das Bemühen, auch publizierte Datensätze als wichtigen Forschungsoutput anzuerkennen, damit sich dies positiv auswirken kann auf die Karriere von Forschenden.

Die ZHAW steht gemäss van Rekum gut da in Sachen Open Research Data. Sie fördert die Entwicklung und Umsetzung aktiv. «Es gibt aber noch sehr grosse Unterschiede innerhalb der ZHAW», so van Rekum. In gewissen Disziplinen und Teams habe sich das offene Teilen von Daten schon voll etabliert, in anderen wiederum noch überhaupt nicht. «Insgesamt gibt es in der Praxis noch viele Fragen, die die Forschenden beschäftigen. Da können wir noch mehr tun und da sind wir dran.»

(Bild: Conradin Frei)

0 Kommentare

Sei der Erste der kommentiert!

Kommentar ist erforderlich!
Name ist erforderlich!
Gültige E-Mail ist erforderlich!
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.