Abstract : | Η παρούσα διπλωματική εργασία εκπονήθηκε στο πλαίσιο του Προγράμματος Μεταπτυχιακών Σπουδών "Ανάπτυξη και Ασφάλεια Πληροφοριακών Συστημάτων" του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών. Στόχος της εργασίας είναι η εξέταση των βασικών βημάτων των ροών εργασίας ( ETL) και η βελτίωση μια υπάρχουσας ροής εργασίας που αφορά σε αρχειακά δεδομένα από τη Δεκαετία του 1940, προερχόμενων από διάφορες ιστορικές πηγές. Στο πλαίσιο της εργασίας, εξετάζονται λεπτομερώς τα βήματα των ροών εργασίας ETL και στην συνέχεια το ενδιαφέρον στρέφεται σε ορισμένες περιπτώσεις μέσω βιβλιογραφικής έρευνας. Ένα σημαντικό μέρος της εργασίας είναι αφιερωμένο στον μετασχηματισμό των δεδομένων και στην πρόταση μιας νέας προσέγγισης μοντελοποίησης με στόχο τη δημιουργία μιας οικονομικότερης ροής εργασιών αφενός αλλά και την αποδοτικότερη και οικονομικότερη εκτέλεση επερωτήσεων στο παραγόμενο μοντέλο δεδομένων αφετέρου Για την αξιολόγηση της προτεινόμενης μοντελοποίησης, χρησιμοποιείται ως συγκριτικό σημείο αναφοράς ένα σύνολο ερωτήσεων διατυπωμένων από ιστορικούς και αποτελούν τις βασικότερες και συχνότερες ερωτήσεις στον κλάδο, και παρατίθεται σύγκριση με την προ υπάρχουσα μοντελοποίηση, προκειμένου να επιβεβαιωθεί η αποτελεσματικότητα του προτεινόμενου μοντέλου. This master's thesis was conducted as part of the postgraduate program "Development and Security of Information Systems" at the Department of Informatics, University of Athens. The objective of the thesis is to examine the fundamental steps of ETL (Extract, Transform, Load) workflows and improve the workflow of an existing use case concerning archival data from the Decade of 1940, sourced from various historical archives.Within the scope of the thesis, the steps of ETL workflows are described in detail, and subsequently, specific cases are explored through literature review. A significant portion of the thesis is dedicated to data transformation and proposes a modeling approach aimed at creating a more cost-effective workflow, while also achieving efficient and economical data representation and query execution.To evaluate the proposed data modeling, a set of existing questions originating from historical data, representing the most fundamental and frequent inquiries in the field has been used as benchmark, and a comparison with existing models is provided to confirm the effectiveness of the proposed model.
|
---|