Περίληψη : | Η παρούσα εργασία εξετάζει το ζήτημα της προέλευσης των δεδομένων. Αρχικά γίνεται μία ανασκόπηση του θέματος και στη συνέχεια επικεντρώνεται σε ένα μοντέλο προέλευσης, συγκεκριμένα το OPM, για το οποίο γίνεται μία προσπάθεια επέκτασης, ώστε να καταγράφει περισσότερη δομημένη πληροφορία, να είναι πιο εκφραστικό και να περιλαμβάνει μία λογική για άσκηση πολιτικής ελέγχου πρόσβασης στα δεδομένα προέλευσης.Αρχικά καταγράφονται τα πεδία εφαρμογής της προέλευσης, τα οποία εντοπίζονται στους τομείς της τέχνης, της επιστήμης και των επιχειρήσεων. Εν συνεχεία εξετάζονται οι χρήσεις της προέλευσης, που είναι η εξακρίβωση της ποιότητας των δεδομένων, ο έλεγχος διαδρομής στην παραγωγή δεδομένων, η δημιουργία συνταγών αναπαραγωγής και επικαιροποίησης των αποτελεσμάτων, η απόδοση πνευματικών δικαιωμάτων αλλά και ευθυνών, και η πληροφόρηση που παρέχει ερμηνεία σχετικά με τους πόρους, τις διαδικασίες, τις μεθόδους κ.α. Διακρίνονται και αναλύονται δύο τύποι προέλευσης, προδιαγεγραμμένη και καταγεγραμμένη ενώ εξ άλλου διακρίνεται και εξετάζεται η προέλευση ως προς το πλαίσιο επεξεργασίας δεδομένων σε συστήματα ροών εργασιών, συστήματα βάσεων δεδομένων, λειτουργικά συστήματα, συστήματα διασυνδεδεμένων δεδομένων, ψηφιακές βιβλιοθήκες και οντολογίες. Επί πλέον η προέλευση ταξινομείται ως προς το αντικείμενο, με βάση τα δεδομένα ή την επεξεργασία και το επίπεδο λεπτομέρειας, και ως προς την παράστασή της ανάλογα με το σχήμα αποθήκευσης, το περιεχόμενο και τη μορφή της. Σε μεγαλύτερη λεπτομέρεια εξετάζεται η ασφάλεια στην προέλευση δεδομένων και ειδικότερα: (α) τα συστατικά της ασφάλειας, που είναι η ακεραιότητα, η διαθεσιμότητα και η εμπιστευτικότητα, (β) τα πεδία που μπορεί να εφαρμοστεί, που είναι οι τομείς του νόμου, των επιστημονικών δεδομένων, της ψηφιακής εγκληματολογίας, της κανονιστικής συμμόρφωσης και της πνευματικής ιδιοκτησίας, και (γ) ο διττός χαρακτήρας του ελέγχου πρόσβασης, όπου αφενός ο έλεγχος πρόσβασης χρησιμοποιείται για την προστασία των δεδομένων προέλευσης και αφετέρου η πληροφορία της προέλευσης χρησιμοποιείται για τον έλεγχο πρόσβασης και την ενίσχυση της ασφάλειας των συστημάτων. Τέλος, έμφαση δίνεται και στις τεχνικές παράστασης της προέλευσης δεδομένων, εξετάζοντας συγκεκριμένα τις τεχνικές Chimera, My Grid, PASOA, Buneman, DBNotes, SPIDER, Trio, CIDOC-CRMDigital και OPM. Ειδικότερα γίνεται σύγκριση του μοντέλου OPM και της οντολογίας CIDOC-CRM Digital, και επιχειρείται επέκταση του υπάρχοντος μοντέλου OPM, κάνοντας παρεμβάσεις μικρής έκτασης που προκύπτουν από τη σύγκριση του OPM με την οντολογία CIDOC-CRM Digital. Η χρησιμότητα των προτεινόμενων επεκτάσεων καταδεικνύεται με παραδείγματα και παρατίθεται η έκφρασή τους σε RDF. This paper examines the topic of data provenance. At first it provides an overview of the subject and subsequently it focuses on a provenance model, the OPM, for which an attempt has been made to record more structured information, to be more expressive and to include a rationale for applying access control policy on data provenance.At first, the domains of provenance are recorded, which lie in the areas of art, science and business. Subsequently the uses of provenance are examined, which are verification of data quality, audit trail for data production, replication recipes creation and currency maintenance of derived data, copyright attribution and accountability, and information that provides interpretation on resources, processes, methods, etc. Two types of provenance are distinguished and analyzed, prospective and retrospective while also provenance based on process context in workflow systems, database systems, operating systems, linked-data systems, digital libraries and ontologies is distinguished and analyzed. Furthermore provenance is classified by the object, based on data or process and the granularity level, and by its representation depending on storing scheme, content and format. In greater detail the security of data provenance is examined and specifically: (a) the components of security, which are integrity, availability and confidentiality, (b) the applying domains, which are the areas of law, scientific data, digital forensics, regulatory compliance and intellectual property, and (c) the dual nature of access control, where on one hand the access control is used to protect data provenance and on the other hand provenance information is used for access control and to enhance security on the systems. Finally, emphasis is placed on data provenance techniques, examining specifically the techniques Chimera, My Grid, PASOA, Buneman, DBNotes, SPIDER, Trio, CIDOC-CRM Digital and OPM. In particular the OPM model and the CIDOC-CRM Digital ontology are compared and an extension of the existing OPM model is attempted, making minor contributions deriving from the comparison of the OPM and the CIDOC-CRM Digital ontology. The usefulness of the proposed extensions is demonstrated with examples and their expression in RDF is provided.
|
---|