Συλλογές
Τίτλος A metadata monitoring framework for explainable outlier detection
Εναλλακτικός τίτλος Πλαίσιο παρακολούθησης μεταδεδομένων για εξηγήσιμη ανίχνευση απομακρυσμένων τιμών
Δημιουργός Γραβιάς, Λουκάς, Gravias, Loukas
Συντελεστής Athens University of Economics and Business, Department of Informatics
Βασσάλος, Βασίλειος
Κουτσόπουλος, Ιορδάνης
Κωτίδης, Ιωάννης
Τύπος Text
Φυσική περιγραφή 82p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8144
Περίληψη The era of big data is making data monitoring difficult and cumbersome for organizations while high data quality is paramount for ensuring correct input for decision making. Most organizations lack consistent data quality checking practices across different departments. The present thesis describes the development of a web-based tool for data quality monitoring and detection of anomalous behavior which can be used irrespective of the different underlying data sources. The goal of the proposed approach is to facilitate quick identification of anomalies through automated detection both on an individual data point level and on table level across time. This is achieved through a metadata management system which extracts useful metadata from a big data warehouse, a quality monitoring system that automatically detects changes in key quality metrics across time and an explainable outlier detection system that can aid in locating problematic data points and understanding why they are considered anomalies. The proposed methodology is tested on two case studies.
Η εποχή των μεγάλων δεδομένων κάνει την διαδικασία παρακολούθησής τους ιδιαίτερα δύσκολη και πολύπλοκη για τους οργανισμούς και τις εταιρείες, ενώ η διασφάλιση υψηλής ποιότητας δεδομένων εξασφαλίζει τις κατάλληλες πληροφορίες για την διαδικασία λήψης αποφάσεων. Οι περισσότεροι οργανισμοί δεν διαθέτουν μια σταθερή διαδικασία ελέγχου της ποιότητας των δεδομένων σε όλα τους τα τμήματα. Η παρούσα πτυχιακή εργασία παρουσιάζει ένα λογισμικό εργαλείο για την παρακολούθηση της ποιότητας των δεδομένων και τον εντοπισμό ανωμαλιών το οποίο μπορεί να χρησιμοποιηθεί ανεξαρτήτως των υποκειμένων δεδομένων. Ο στόχος της προτεινόμενης μεθόδου είναι η διευκόλυνση του γρήγορου εντοπισμού ανωμαλιών τόσο σε επίπεδο ενός στοιχείου όσο και σε επίπεδο πίνακα κατά την πάροδο του χρόνου. Αυτό επιτυγχάνεται μέσω ενός συστήματος διαχείρισης μεταδεδομένων το οποίο εξάγει μεταδεδομένα από μια αποθήκη μεγάλων δεδομένων, ενός συστήματος παρακολούθησης της ποιότητας των δεδομένων το οποίο αυτόματα εντοπίζει αλλαγές σε βασικούς δείκτες ποιότητας στην πάροδο του χρόνου και ενός εξηγήσιμου συστήματος ανίχνευσης απομακρυσμένων τιμών το οποίο μπορεί να βοηθήσει στον εντοπισμό προβληματικών δεδομένων και στην κατανόηση των λόγων για τους οποίους η εκάστοτε τιμή θεωρείται ανωμαλία. Η προτεινόμενη μεθοδολογία ελέγχεται σε δύο διαφορετικές μελέτες περίπτωσης.
Λέξη κλειδί Σκιαγράφηση δεδομένων
Διαχείριση μεταδεδομένων
Παρακολούθηση ποιότητας δεδομένων
Εντοπισμός απομακρυσμένων τιμών
Μεγάλα Δεδομένα
Metadata management
Data quality monitoring
Data profiling
Outlier detection
Big Data
Διαθέσιμο από 2020-12-07 19:40:44
Ημερομηνία έκδοσης 05-12-2020
Ημερομηνία κατάθεσης 2020-12-07 19:40:44
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/