Vortrag zu allgemeinen Hintergründen, technischen Anforderungen und Hinweisen zum Aufbau von Forschungsdatenrepositorien. Gehalten an der Technischen Universität Hamburg am 15.02.2017.
2. Kurze Vorstellung
• Diplom-Informatiker
• Mehr als zehnjährige Tätigkeit in Hosting, Betrieb und
Entwicklung von Repositorien (OPUS 3, OPUS 4, DSpace)
• Entwicklung und Betrieb von „DepositOnce“, dem
Repositorium für Forschungsdaten und Publikationen der
TU Berlin
• Erfahrungen im Bereich Open-Source-Softwareentwicklung,
Open Access, Forschungsdaten, Linked Data, …
• DSpace Committer seit 2014
• Initiator des Treffens der deutschsprachigen
DSpace Nutzergruppe
• Gründer von The Library Code
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 2
3. The Library Code
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 3
Beratung Installation Anpassungen
Registered
DSpace
Service
Provider
SchulungHosting
Software-
entwicklung
Support &
Wartung
https://www.the-library-code.de
5. Standing on the shoulders of giants
“If I have seen further,
it is by standing on the
shoulders of giants.”
Isaac Newton
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 5
Quote from:
https://en.wikipedia.org/wiki/Standing_on_the_shoulders_of_giants
Image: Library of Congress, Rosenwald 4, Bl. 5r,
http://commons.wikimedia.org/wiki/File:Library_of_Congress,_Rose
nwald_4,_Bl._5r.jpg
6. xxx.lanl.org / arXiv.org
“[…] the rapid acceptance of electronic
communication of research information
was facilitated by a pre-existing ‘preprint
culture’, in which the irrelevance of
refereed journals to ongoing research has
long been recognized.
[…] technological advances – combined
with a remarkable lack of initiative on the
part of conventional journals in response
to the electronic revolution – rendered
the development of e-print archives ‘an
accident waiting to happen.’”
Paul Ginsparg, 1994
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 6
Paul Ginsparg: First Steps Towards Electronic Research Communication.
In: Computer in Physics, Vol. 8, No. 4, 1994, pp. 390-396.
Photo: Kindly provided by Paul Ginsparg
7. Open Access
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 7
“What Is the Problem?”
graphic, content by
Jill Cirasella,
graphic design by
Les LaRue,
http://www.leslarue.com/,
licensed under a Creative
Commons Attribution-
ShareAlike 3.0 Unported
License
8. Open Access Declarations
Budapest Open Access Initiative:
Budapest Declaration (Februar 2002)
Bethesda Statement on
Open Access Publishing (Juni 2003)
Berlin Declaration on Open Access to Knowledge in
Sciences and Humanities (Oktober 2003)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 8
9. Bethesda Statement on
Open Access Publishing (June 2003)
„…A complete version of
the work and all
supplemental materials,
including a copy of the
permission as stated
above, in a suitable
standard electronic
format is deposited
immediately upon initial
publication in at least
one online repository…”
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 9
10. Repositorien aus Sicht der Open
Access Bewegung...
• ...sind Archive für digitale Werke und ergänzende
Materialien
• ...dienen dem Austausch von wissenschaftlichen
Ergebnissen und kulturellem Erbe
• ...stellen den freien Zugang zu Wissen sicher
• ...benennen die Autoren und Autorinnen eines Werkes
• ...sind frei von Zugangsbarrieren finanzieller,
lizenzrechtlicher, technischer oder sonstiger Art
• ...werden von Institutionen betrieben, die bestrebt sind
Open Access und Langzeitarchivierung zu ermöglichen
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 10
12. Stand(ing) on the shoulders of giants
Warum sollte das nur
für Publikationen
gelten?
Warum sollte das nur
für Publikationen
gelten?
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 12
14. Beispiele
• Quellcode
• Tabellen aller Art
– Messwerte
– Interviewdaten
– Wetteraufzeichnungen
– ...
• Bilder, Fotos, Scans
• Modelle
• Audio, Video
• Und vieles mehr…
TUHH | 15.02.17 | Hamburg 14
Murray Foubister: „0I7A5272.jpg”
(https://www.flickr.com/photos/mfoubister/), CC-By-SA
Joshua Tree National Park: „Recording Data“, Public Domain
(https://www.flickr.com/photos/joshuatreenp/)
Werner Heil / NASA: „Heliosphärische Stromschicht“,
Public Domain
Rotkaeppchen68: „FuBK-Testbild“
(https://de.wikipedia.org/wiki/Benutzer:Rotkaeppchen68),
CC-By-SA
Leonardo da Vinci: „Der vitruvianische Mensch“,
Public Domain, Foto: Luc Viatour / www.Lucnix.be
Forschungsdaten und DSpace
15. Forschungsdaten, Rohdaten, Primärdaten,
Forschungsprimärdaten, Research Data
„Unter Forschungsdaten sind … digitale und
elektronisch speicherbare Daten zu verstehen, die im
Zuge eines wissenschaftlichen Vorhabens z.B. durch
Quellenforschungen, Experimente, Messungen,
Erhebungen oder Befragungen entstehen.“ (DFG
2010)
http://www.dfg.de/download/pdf/foerderung/programme/lis/ausschreibung_forschungsdaten_1
001.pdf
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 15
16. Sicherung guter
wissenschaftlicher Praxis
• Gefälschte Forschungsergebnisse
lösten 1997 einen Skandal aus
• DFG, 1998: „Sicherung guter
wissenschaftlicher Praxis“, Auszug:
Empfehlung 7: Sicherung und
Aufbewahrung von Primärdaten
Primärdaten als Grundlagen für
Veröffentlichungen sollen auf
haltbaren und gesicherten Trägern in
der Institution, wo sie entstanden
sind, zehn Jahre lang aufbewahrt
werden.
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 16
17. Aber…
„Viele außeruniversitäre Forschungseinrichtungen (AUFen) und
forschungsstarke deutsche Hochschulen haben noch kein
ausreichendes Verständnis davon, wie sie Überlegungen zum
Forschungsdatenmanagement oder Modelle davon entwickeln
oder entsprechende strategische Ansätze bzw.
Managementoptionen aufbauen können.“
BMBF 15.08.2016
(Vgl.: „Förderrichtlinie zur Erforschung des Managements von
Forschungsdaten in ihrem Lebenszyklus an Hochschulen und
außeruniversitären Forschungseinrichtungen“ im
Bundesanzeiger vom 19.08.2016)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 17
18. Gründe für
Forschungsdatenmanagement
• Nachnutzbarkeit der Forschungsdaten: Daten, die nur
einmal erhoben werden können, Vergleiche über lange
Zeiträume, erneute Auswertung aus anderem Blickwinkel
– Beispiele: Wetterdaten, Bohrkerne, Interviewreihen,
Messdaten aller Art, ...
• Nachvollziehbarkeit und Chance zur Vertiefung
• Wissenschaftliche Anerkennung: Datenpublikationen,
Datenzitation und Reichweite der eigenen Ergebnisse
• Erleichterte Zusammenarbeit über Institutionen hinweg
• Referenzdatensätze, Benchmarks, ...: z.B. Training und
Test Sets im Bereich des maschinellen Lernens (MNIST)
• Verifizierbarkeit von Forschungsergebnissen
• Anforderungen von Mittelgebern
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 18
19. Ausgewählte Aktivitäten
Allianz der deutschen
Wissenschaftsorganis
ationen
verabschiedet im Juni
2010 „Grundsätze
zum Umgang mit
Forschungsdaten“
(http://www.allianzinitiative.de/
de/handlungsfelder/forschungsd
aten/grundsaetze.html)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 19
20. Ausgewählte Aktivitäten
2012-2014: Projekt “Forschungsdaten“ der TU Berlin,
DepositOnce – Repositorium für Forschungsdaten und
Publikationen: https://depositonce.tu-berlin.de
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 20
21. Ausgewählte Aktivitäten
2013: Im Koalitionsvertrag der
Bundesregierung wird
festgehalten: „Wir werden eine
Strategie für den digitalen
Wandel in der Wissenschaft
initiieren, z. B. um Zugang und
Nutzbarkeit von komplexen
Forschungsdaten zu
verbessern.“
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 21
23. Ausgewählte Aktivitäten
• 2013: Gründung der Research Data Alliance (RDA, https://rd-
alliance.org)
• 2014: nestor und DINI: gemeinsame AG Forschungsdaten
(http://www.forschungsdaten.org/index.php/AG_Forschungsdate
n)
• 2014-2020: EU-Förderprogramm Horizon 2020 schreibt teilweise
(Projekte aus sieben Forschungsbereichen) Veröffentlichung von
Datenmanagementplänen und Forschungsdaten im Open Access
vor
• 02/2015: Positionspapier „Research data at your fingertips“ der
AG Forschungsdaten der Schwerpunktinitiative „Digitale
Information“ der Allianz der deutschen
Wissenschaftsorganisationen:
http://doi.org/10.2312/allianzfd.001
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 23
24. Ausgewählte Aktivitäten
30.09.2015: DFG verabschiedet
„Leitlinien zum Umgang mit
Forschungsdaten“
(http://www.dfg.de/download
/pdf/foerderung/antragstellun
g/forschungsdaten/richtlinien
_forschungsdaten.pdf)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 24
25. Ausgewählte Aktivitäten
• 10.11.2015: Mitgliederversammlung der HRK verabschiedet
Empfehlung zur Entwicklung des
Forschungsdatenmanagements (siehe HRK
Tätigkeitsbericht 2015)
• 2016: In der 1. Förderrichtlinie im Forschungsfeld „Digitale
Hochschullehre“ verpflichtet das BMBF die Antragssteller im
Rahmen des Projekts gewonnene Daten „zur
Sekundärnutzung verfügbar zu machen“
(https://www.bmbf.de/foerderungen/bekanntmachung-
1152.html)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 25
26. Ausgewählte Aktivitäten
2016: RfII – Rat für
Informationsinfrastrukturen:
Leistung aus Vielfalt.
Empfehlungen zu Strukturen,
Prozessen und Finanzierung des
Forschungsdatenmanagements
in Deutschland, Göttingen 2016,
160 Seiten
http://www.rfii.de/?wpdmdl=19
98
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 26
28. Status Quo in Deutschland
• 7 Universitäten in Deutschland mit
Forschungsdatenpolicies
– HU Berlin, Uni Bielefeld, TU Darmstadt, Uni Göttingen,
Uni Heidelberg, Uni Kiel, Uni Wuppertal
• 5 Universitäten in Deutschland mit Unterstützung
beim Forschungsdatenmanagement
– LMU München, Uni Bielefeld, Uni Heidelberg, Uni
Mannheim, TU Berlin
Vgl.: Ralf Toepfer, Sven Vlaeminck auf der FORGE 2016:
„Infrastrukturen für wirtschaftswissenschaftliche Forschungsdaten in Deutschland“,
https://www.gwiss.uni-hamburg.de/gwin/ueber-uns/forge2016/praesentationen/f16-
21-toepfer-vlaeminck.pdf
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 28
30. Forschungsdatenmanagement
Der Begriff Datenmanagement bezeichnet alle im
Zusammenhang mit Forschungsdaten durchzuführenden
Tätigkeiten, die sich entlang des Datenlebenszyklus ergeben.
Die Tätigkeiten des Datenmanagements reichen von der
Datenerhebung im Forschungsprojekt über die
Datenbearbeitung (insb. Auswertungen) bis hin zur
Archivierung der Forschungsdaten, wie sie beispielsweise
durch eine Einrichtung der Forschungsdateninfrastruktur
erfolgt.
RatSWD:
Forschungsdatenmanagement in den Sozial-, Verhaltens- und
Wirtschaftswissenschaften.
http://www.ratswd.de/dl/RatSWD_Output3_Forschungsdatenmanagement.pdf
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 30
32. Beteiligte an Universitäten
Vgl.: AG Forschungsdaten (M. Kuberek): „Organisatorisch-technisches Konzept für eine
Forschungsdaten-Infrastruktur der TU Berlin“, 2012, http://www.szf.tu-
berlin.de/fileadmin/f33_szf/TUB_Forschungsdaten_Konzept_lang_20120315.pdf
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 32
33. Bibliotheken
• Bibliotheken sind die Infrastruktur zur Informationsversorgung der
Wissenschaftler_innen
• Bibliothekare beschäftigen sich seit hunderten von Jahren mit der
Erfassung von Informationsquellen (Bücher, Zeitschriften, ...) und dem
Auffinden selbiger
• Volltextindices erleichtern das Finden von Texten, moderne
Suchmaschinen setzen jedoch nach wie vor auch Metadaten ein und
gewichten diese stärker als die reinen Volltexte
• Bei Forschungsdaten sind Volltextindices in der Regel nicht hilfreich, hier
ist eine ordentliche Erschließung und Auszeichnung mit Metadaten
unerlässlich
• Bibliotheken mit ihren Kernkompetenzen sind nach den
Wissenschaftler_innen die wichtigsten Akteure im
Forschungsdatenmanagement
• Optimal: Zusammenarbeit von Bibliothek, Rechenzentrum und
Forschungsabteilung
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 33
34. Empfehlungen der HRK (1-3)
1. Orientierung geben
– FD-Policies; Handlungsrahmen vorgeben; Wissenschaftler
beauftragen, sich geeignete Vorgaben selbst zu geben
2. Datenkultur stärken
– Vorteile darstellen; Anreize schaffen, Daten offen zu legen
3. Strategie entwickeln
– Standortbestimmung; Akteure und Handlungsebenen in den
Blick nehmen; Verbünde, Kooperationen und Netzwerke
berücksichtigen; strategische Position des
Forschungsdatenmanagements nutzen
Vgl.: Empfehlung – Wie Hochschulleitungen die Entwicklung des
Forschungsdatenmanagements steuern können.
In: HRK Tätigkeitsbericht 2015
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 34
35. Empfehlungen der HRK (4-6)
4. Umsetzung organisieren
– An verschiedenen Orten bestehende Strukturen und Aktivitäten zu
einer Gesamtstruktur zusammenführen; zusätzliche Strukturen
aufbauen
5. Infrastrukturen ausbauen
– Auf- und Ausbau von Forschungsdateninfrastrukturen anhand der
Bedarfe der Wissenschaftler_innen; fachbezogene und
übergreifende Lösungen berücksichtigen
6. Kompetenzen weiterentwickeln
– Nachsteuerung und Aktualisierungen; Kompetenzen bzgl. des
Forschungsdatenmanagements bei Lernenden, Lehrenden und
Forschenden weiterentwickeln
Vgl.: Empfehlung – Wie Hochschulleitungen die Entwicklung des
Forschungsdatenmanagements steuern können.
In: HRK Tätigkeitsbericht 2015
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 35
36. Mögliche Handlungsfelder für
Hochschulbibliotheken
• Beratungsangebote schaffen
– Allgemeine Beratung zu Open Access und Forschungsdaten
– Spezielle Beratung zu Fragen der Nachhaltigkeit bei der
Antragsstellung
– Beratung bei der Veröffentlichung von Publikationen mit
„Supplemental Material“
• Fortbildungen zu Open Access und Forschungsdaten (Teaching
Library)
• Forschungsdatenpolicy entwerfen und in den akademischen
Entscheidungsprozess einbringen
• Aufbau und Betrieb von Infrastrukturen, am besten in
Kooperation mit Rechenzentrum und Forschungsabteilung
• Zusammenarbeit mit Wissenschaftler_innen bei Projekten (z.B.
INF-Projekte als Teil von SFBs)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 36
37. Technische Infrastruktur(en) des
Forschungsdatenmanagements
• Virtuelle Forschungsumgebung
– Virtuelle Arbeitsplattform zur Unterstützung der
Forschungstätigkeit
• Forschungsinformationssystem (FIS)
– Verzeichnis / Datenbank der Forschungsaktivitäten einer
Institution (Publikationen, Projekte, Anträge, …)
• Tool zur Erstellung von Datenmanagementplänen (DMP)
– Ein Datenmanagementplan (DMP) ist Planung und
Dokumentation des Umgangs mit Daten im Rahmen eines
Forschungsprojekts und danach. Drittmittelgeber schreiben
zunehmend die Einreichung von DMPs bei der Beantragung
vor, sowie die kontinuierliche Pflege von DMPs während eines
Forschungsvorhabens
• Repositorium (gleich ausführlicher)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 37
39. Repositorien
Ein Repositorium ist ein System zur sicheren Speicherung (und Weitergabe)
digitaler Objekte und der die Objekte beschreibenden strukturierten
Metadaten. http://doi.org/bd9k
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 39
• Open-Access-Repositorien
• Institutionelle/fachspezifische
Repositorien
• Dokumentenserver
• Digitale Archive
• Forschungsdatenrepositorien
• …
Über 3000 OA-Repositorien weltweit.
Repositorien werden in der Regel von
den Bibliotheken der jeweiligen
Institution betrieben.
Quelle: The Directory of Open Access Repositories,
http://www.opendoar.org, abgerufen am 17. April 2016.
40. Repositoriensoftware
40
OpenDOAR ROAR
DSpace 1127 41,2% 1464 39,2%
EPrints 375 13,7% 532 14,2%
OPUS 71 2,6% 54 1,4%
Fedora 41 1,5% 55 1,5%
MyCore 8 0,3% 7 0,2%
Andere 835 30,5% 516 13,8%
Unbekannt 282 10,3% 1111 29,7%
2739 3739
Quelle: http://www.opendoar.org und http://roar.eprints.org,
abgerufen am 06. Juni 2014.
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace
41. Aus den Open Access Statements
abgeleitete Anforderungen
• Archivcharakter
• Sichere Speicherung
digitaler Objekte
• Wissenschaftlich
zitierfähig
• Metadaten
• Zugänglich
• Auffindbar
• Integrierbar
• Nachnutzbar
• Maschinell
verarbeitbar
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 41
42. Forschungsdaten und Repositorien
• Forschungsdaten sollen durch die Institutionen, an denen sie
entstehen, sicher aufbewahrt werden
• Akademische Institutionen betreiben zur sicheren Aufbewahrung
digitaler Objekte Repositorien
• Repositorien bieten zudem die Infrastruktur zur Erschließung der
gespeicherten Inhalte, stellen die Zitierbarkeit sicher und dienen
der Publikation im Internet
• Repositorien sind offensichtlich geeignet und die naheliegende
Lösung zur Sicherung der guten wissenschaftlichen Praxis
• Mittelgeber verlangen zunehmend die Publikation von
Forschungsdaten in Repositorien
• Zwei Wege: Aufbau speziell für Forschungsdaten vs. Erweiterung
bestehender Repositorien (mit Publikationen kombiniert)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 42
43. Repositorien für Publikationen –
Repositorien für Forschungsdaten
• Enger Zusammenhang zwischen Forschungsdaten und
Publikationen
– Forschungsdaten sind von Interesse, um sich in die Hintergründe
einer Publikation zu vertiefen
– Vor der Nachnutzung von Forschungsdaten ist es von Interesse zu
sehen, wie die Daten von anderen ausgewertet und genutzt wurden
• Generell große Unterschiede zwischen
interdisziplinären/institutionellen und disziplinspezifischen
Repositorien
• Keine offensichtlichen Gründe für Repositorien ausschließlich für
Daten oder Publikationen
– Ausnahme: speziell zugeschnittene Repositorien, z.B. für spezielle
Medienformen (Audio-/Videoarchive, Bilderdatenbanken, Scans),
spezielle Messdaten, Bohrkerne, usw.
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 43
44. Institutionelle vs. disziplinspezifische
Repositorien
disziplinspezifische Repositorien
• können sich spezifisch anpassen
(z.B. Metadaten)
• genießen in der Regel eine
größere Wahrnehmung in der
entsprechenden Community
institutionelle Repositorien
• können die Forschungsleistung
der Institution abbilden
• sind für kleine Disziplinen und
interdisziplinäre Ergebnisse
wichtig
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 44
• Solange Repositorien von etablierten Institutionen getragen werden
oder anderweitig verlässliche Strukturen aufweisen, werden sowohl
disziplinspezifische als auch institutionelle Repositorien den Regeln zur
Sicherung guter wissenschaftlicher Praxis gerecht.
• Wo möglich sind disziplinspezifische Repositorien in der Regel
vorzuziehen.
• Zusammenarbeit zwischen Repositorien erstrebenswert
45. Repositorien-Ökosystem
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 45
DINI-Zertifikat
Open Access Repositoriy Ranking
Open Archive Initiative
Bielefeld Academic Search Engine
SWORD
OAI-PMH
OAI-ORE
DOI
Handle
URN:NBN
Netzpublikationen
ORCID
Linked Data
REST
Dublin Core
METS
MODS
Metadatenschemata
Publikationen
Forschungsdaten
Sichere Speicherung
Open Access
Zweitveröffentlichungen
46. xxx.lanl.org / ArXiv.org
Quelle: Paul Ginsparg, First Steps Towards Electronic Research Communication.
In: Computer in Physics, Vol. 8, No. 4, 1994, pp. 390-396. Foto: Paul Ginsparg
“Although the WorldWideWeb
still represents only a small
fraction of the overall usage,
this access mode is expected
to become dominant in the
near future.”
Paul Ginsparg 1994
TUHH | 15.02.17 | Hamburg 46Forschungsdaten und DSpace
Repositorien-spezifische Schnittstellen:
• OAI-PMH
• SWORD
Allgemein verbreitete Schnittstellen:
• REST
• Linked Data / SPARQL
47. TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 47
Schnittstellen
[aktiv markiert die Seite,
die die Verbindung aufbaut]
Storage Layer
Business Logic
Persistant Identifier
Manager
Rechte-
management
Benachrichtigungs-
mechanismus
Browse
Tool Administration
Suche ...
Schnittstellen
Web
UI
Statistik
Tool
Linked
Data
REST …
SWORD-
Client
SWORD-
Schnittstelle
OAI-
Client
OAI-
Schnittstelle
aktiv
aktiv
aktiv
aktiv
Login-Daten
Daten/Publikationen
ePA, …
(Forschungsabt.)
Name, Titel, …
(TUBIS)
LDAP
Shibboleth
Datenbank Dateisystem Triple Store
48. Auswahl der zu speichernden Daten
• Alles für die Reproduktion der Ergebnisse/Daten
Erforderliche
– Beispiel: das Simulation-Script aber nicht zwingend alle
Simulations-Ergebnisse
• Alles was benötigt wird, um mit den Daten zu arbeiten
– Dokumentation der Entstehung / Erhebung und zur
Datennutzung
• Rohdaten möglichst „ursprünglich“
– Beispiel: Interview-Reihe mit Fragebögen und Auswertung
• Nicht jede Zwischenversion, nicht jeder
Verarbeitungsschritt erforderlich oder hilfreich
– Gezielte Auswahl erleichtert den Zugang zu den Daten
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 48
49. Metadaten
• DSpace arbeitet von Haus aus mit Dublin Core
Elements und Terms
• DSpace kann um weitere Metadatenschemata
ergänzt werden, solange sie der Struktur von Dublin
Core entsprechen (flache Struktur, keine Hierarchie)
• DSpace kann derzeit nicht mit hierarchischen
Metadatenschemata umgehen und keine
zusammengesetzten Felder verwalten
• Es gibt Überlegungen hierarchische
Metadatenstrukturen in DSpace einzuführen, bzw.
DSpace in Richtung METS/MODS weiterzuentwickeln
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 49
51. Dateiformate
• Forschungsdaten sind sehr heterogen
– Tabellen (Excel, CSV)
– Bilder
– Scripte und Programme
– Audio-Dateien
– Messwerte (binär)
– ...
• Es gibt große Unterschiede insbesondere hinsichtlich der Größe
und der genutzten Formate
• Natürlich gibt es einzelne Datensätze mit sehr großen
Datenmengen (viele Terabyte), die in Repositorien nicht sinnvoll
ablegbar sind
• Der Großteil der Forschungsdatensätze hat allerdings eine Größe
von unter 5GB (disziplinspezifisch unterschiedlich)
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 51
53. Dateistruktur
• Forschungsdaten können sowohl in Form einzelner
Dateien als auch in Form ganzer Dateistrukturen vorliegen
• Ein Datensatz kann dieselben Inhalte in unterschiedlichen
Formaten enthalten (Beispiele: .csv und .xsl, .tex und .pdf
oder .svg und .png)
• Jeder Datensatz sollte eine Beschreibung und
Dokumentation enthalten
• Werden Datensätze als gepackte Dateistrukturen (dazu
gleich mehr) abgelegt, lohnt es sich die Dokumentation
sowohl in der Dateistruktur, als auch als eigene Datei
neben der Dateistruktur abzulegen, damit sie in einem
Volltextindex erfasst werden kann
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 53
54. BagIt
• Einfaches Dateiformat zur Speicherung von Dateistrukturen
• Von der California Digital Library und der Library of Congress
entwickelt
• IETF Internet-Draft:
https://tools.ietf.org/html/draft-kunze-bagit-14
• Obligatorische Elemente:
– bagit.txt: BagIt-Version und Encoding
– data/: Payload-Verzeichnis mit den eigentlichen Dateien
– manifest-<alg>.txt: Datei mit Hashsummen aller Dateien (z.B.
manifest-md5.txt)
• Optional: Weitere beschreibende Dateien
• Serialisierung: ZIP oder TAR
• In DSpace derzeit keine automatische Erstellung von BagIts
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 54
55. Persistent Identifier
• Wissenschaftler_innen kennen meistens DOIs oder gar keine
Persistent Identifier
• Wissenschaftliche Verlage arbeiten mit DOIs
• Zeitschriften verlangen bei der Einreichung von Artikeln
zunehmend DOIs, die auf „supplemental Material“ verweisen. Oft
bieten sie jedoch keine Möglichkeit supplemental Material zu
hinterlegen
• DOI-Vergabe im institutionellen Repositorium hilft dabei, mit
Wissenschaftler_innen ins Gespräch zu kommen, und steigert die
Akzeptanz des institutionellen Repositoriums
• DSpace nutzt intern Handle, zusätzlich können DOIs vergeben
werden
• DOI-Vergabe in DSpace ist (derzeit) nur für alle Items möglich,
eine Auswahl der Items, die eine DOI erhalten, ist nicht möglich
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 55
56. Versionierung
• Bei Forschungsdaten kommt es häufiger als bei
Publikationen vor, dass Fehler korrigiert werden
oder neue Versionen erscheinen sollen
• Wichtig: alle Versionen müssen zugreifbar
bleiben, da einmal veröffentlichte Daten in
Publikationen zitiert worden sein könnten und
Zitate nachvollziehbar bleiben müssen
• Eine lineare Versionierung von Items ist in
DSpace mit Handles und mit DOIs möglich
• Ab DSpace 6: In der JSPUI können Submitter
eigene neue Versionen anlegen
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 56
58. Self-Submission
• Typischer Workflow in Repositorien: Self-
Submission durch Autor_innen, formales
Review und Freischaltung durch Team der
betreibenden Organisation (oft Bibliothekare)
• In der wissenschaftlichen Kommunikation ist
das Einreichen eigener Texte üblich
• Niemand kennt Texte und Daten so genau, wie
die Urheber_innen
• Self-Submission als Teil der Open-Access-Idee
• OAIS-Modell beschrieb bereits 1999 Self-
Submission
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 58
59. Besonderheiten von
Forschungsdatenrepositorien
• Upload-Mechanismus muss größere Dateien unterstützten (z.B.
Unterbrechungen des Uploads vertragen)
– von der JSPUI seit Version 4.0 unterstützt
• Forschungsdaten bestehen häufig aus Dateistrukturen (ZIP-
Pakete, BagIt), Publikationen eher aus einzelnen Dateien
• Eingeschränkte Volltextsuche, da mehr Binärdateien oder
komprimierte Dateistrukturen
– Erschließung durch Metadaten entsprechend wichtig
– Dokumentation von Forschungsdaten in den Volltextindex
aufnehmen
• Verlinkung von Publikationen und Daten
– Links als Metadaten
– Persistent Identifier für die Verlinkung nutzen
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 59
65. Konzept der Forschungsdaten-
Infrastruktur der TU Berlin
Organisatorisch-technisches
Konzept für eine
Forschungsdaten-
Infrastruktur in der TU Berlin
Langfassung mit Erläuterungen,
Begriffserklärungen und Links
AG Forschungsdaten (M. Kuberek)
Berlin, 15. März 2012
Nur Online verfügbar:
http://www.szf.tu-
berlin.de/fileadmin/f33_szf/TUB_
Forschungsdaten_Konzept_lang_
20120315.pdf
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 65
66. Forschungsdatenmanagement in den
Geowissenschaften
Einstieg ins
Forschungsdatenmanagement in
den Geowissenschaften
Herausgeber:
Hemlholtz-Zentrum Potsdam –
Deutsches GeoForschungsZentrum (GFZ)
und andere
Berlin, 2014.
Im Open Access verfügbar:
http://doi.org/10.2312/lis.14.01
TUHH | 15.02.17 | HamburgForschungsdaten und DSpace 66