Erklärt! Daten-Provenienz
Der Begriff Provenienz kommt vom lateinischen Verb „provenire“ und bedeutet „hervorkommen“, „hervortreten“ oder „entstehen“. Andere in diesem Zusammenhang verwendete Begriffe sind „Abstammung“ oder „Stammbaum“. In der Kunst- und Kulturwissenschaften wird der Begriff Provenienz seit vielen Jahren verwendet, um die Chronologie des Besitzes, der Verwahrung oder des Standortes eines historischen oder künstlerischen Gegenstandes zu dokumentieren, während Digitale Bibliotheken unter dem Begriff den Lebenszyklus eines digitalen Objekts verstehen. Die Dokumentation der Datenprovenienz als Teil und Typ von Metadaten ist wichtig, um die Authentizität von Daten zu bestätigen und ihre Wiederverwendung zu ermöglichen.
Im Zusammenhang mit (wissenschaftlichen) Daten und Datenmanagement bedeutet Provenienz die Dokumentation darüber, woher Datenmaterial stammt und mit welchen Prozessen und Methoden es produziert wurde.
Die Datenprovenienz beantwortet die Fragen, warum und wie die Daten produziert wurden, wo, wann und von wem.
Wofür ist die Datenherkunft wichtig?
Bei der Idee und dem Konzept der Provenienz geht es um Vertrauen, Glaubwürdigkeit und Reproduzierbarkeit der Forschung. Daher ist die Zusammenarbeit von Datennutzern und Datenproduzenten durch die Bereitstellung von Provenienz-Metadaten erforderlich. Das ist wichtig, um die Qualität der Daten zu bestimmen wie für das Vertrauen in die Ergebnisse, deren Reproduzierbarkeit oder die Wiederverwendbarkeit von Daten.
Bei datenintensiver Forschung zum Beispiel sind die Datennutzer*innen wahrscheinlich nicht identisch mit den Datenproduzent*innen. Datenproduzent*innen können eine Simulation oder ein Instrument in einer bestimmten Weise konfigurieren, um Primärdaten zu sammeln, oder bestimmte Methoden und Prozesse anwenden, um Eingabedaten zu extrahieren, zu transformieren und zu analysieren, um ein Ausgabedatenprodukt zu erzeugen.
Die Verantwortlichkeit der Forschung hängt von der Glaubwürdigkeit und Vertrauenswürdigkeit der Eingabedaten ab – denn Daten sind die wissenschaftliche Grundlage der Analyse. Deshalb haben die Datennutzer*innen ein Interesse daran, die Datenqualität zusammen mit dem erwarteten Grad der Ungenauigkeit zu überprüfen.
Datenprovenienz erfassen und verwalten
Manche Provenienzinformationen werden routinemäßig in Metadatensätzen erfasst, z.B. Erstellungszeitpunkt, erstellende Person, verwendete Instrumente/Software, Datenverarbeitungsmethoden etc. Daher bildet gutes Datenmanagement die Basis einer sorgfältigen Erfassung der Datenprovenienz.
- Provenienz kann in einer separaten README-Datei im Textformat erfasst werden, welche die verwendeten Datenerfassungs- und -verarbeitungsmethoden beschreibt.
- Provenienz kann außerdem in einer strukturierteren Weise durch die Verwendung von Metadatenstandards dokumentiert werden, wobei diese generisch oder disziplin- bzw. themenspezifisch sein können.
- Die W3C Provenance Incubator Group hat ein Provenienzdatenmodell (PROV-DM) und eine Provenienz-Ontologie (PROV-O) entwickelt.