Συλλογές | |
---|---|
Τίτλος |
A metadata monitoring framework for explainable outlier detection |
Εναλλακτικός τίτλος |
Πλαίσιο παρακολούθησης μεταδεδομένων για εξηγήσιμη ανίχνευση απομακρυσμένων τιμών |
Δημιουργός |
Γραβιάς, Λουκάς, Gravias, Loukas |
Συντελεστής |
Athens University of Economics and Business, Department of Informatics Βασσάλος, Βασίλειος Κουτσόπουλος, Ιορδάνης Κωτίδης, Ιωάννης |
Τύπος |
Text |
Φυσική περιγραφή |
82p. |
Γλώσσα |
en |
Αναγνωριστικό |
http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8144 |
Περίληψη |
The era of big data is making data monitoring difficult and cumbersome for organizations while high data quality is paramount for ensuring correct input for decision making. Most organizations lack consistent data quality checking practices across different departments. The present thesis describes the development of a web-based tool for data quality monitoring and detection of anomalous behavior which can be used irrespective of the different underlying data sources. The goal of the proposed approach is to facilitate quick identification of anomalies through automated detection both on an individual data point level and on table level across time. This is achieved through a metadata management system which extracts useful metadata from a big data warehouse, a quality monitoring system that automatically detects changes in key quality metrics across time and an explainable outlier detection system that can aid in locating problematic data points and understanding why they are considered anomalies. The proposed methodology is tested on two case studies. Η εποχή των μεγάλων δεδομένων κάνει την διαδικασία παρακολούθησής τους ιδιαίτερα δύσκολη και πολύπλοκη για τους οργανισμούς και τις εταιρείες, ενώ η διασφάλιση υψηλής ποιότητας δεδομένων εξασφαλίζει τις κατάλληλες πληροφορίες για την διαδικασία λήψης αποφάσεων. Οι περισσότεροι οργανισμοί δεν διαθέτουν μια σταθερή διαδικασία ελέγχου της ποιότητας των δεδομένων σε όλα τους τα τμήματα. Η παρούσα πτυχιακή εργασία παρουσιάζει ένα λογισμικό εργαλείο για την παρακολούθηση της ποιότητας των δεδομένων και τον εντοπισμό ανωμαλιών το οποίο μπορεί να χρησιμοποιηθεί ανεξαρτήτως των υποκειμένων δεδομένων. Ο στόχος της προτεινόμενης μεθόδου είναι η διευκόλυνση του γρήγορου εντοπισμού ανωμαλιών τόσο σε επίπεδο ενός στοιχείου όσο και σε επίπεδο πίνακα κατά την πάροδο του χρόνου. Αυτό επιτυγχάνεται μέσω ενός συστήματος διαχείρισης μεταδεδομένων το οποίο εξάγει μεταδεδομένα από μια αποθήκη μεγάλων δεδομένων, ενός συστήματος παρακολούθησης της ποιότητας των δεδομένων το οποίο αυτόματα εντοπίζει αλλαγές σε βασικούς δείκτες ποιότητας στην πάροδο του χρόνου και ενός εξηγήσιμου συστήματος ανίχνευσης απομακρυσμένων τιμών το οποίο μπορεί να βοηθήσει στον εντοπισμό προβληματικών δεδομένων και στην κατανόηση των λόγων για τους οποίους η εκάστοτε τιμή θεωρείται ανωμαλία. Η προτεινόμενη μεθοδολογία ελέγχεται σε δύο διαφορετικές μελέτες περίπτωσης. |
Λέξη κλειδί |
Σκιαγράφηση δεδομένων Διαχείριση μεταδεδομένων Παρακολούθηση ποιότητας δεδομένων Εντοπισμός απομακρυσμένων τιμών Μεγάλα Δεδομένα Metadata management Data quality monitoring Data profiling Outlier detection Big Data |
Διαθέσιμο από |
2020-12-07 19:40:44 |
Ημερομηνία έκδοσης |
05-12-2020 |
Ημερομηνία κατάθεσης |
2020-12-07 19:40:44 |
Δικαιώματα χρήσης |
Free access |
Άδεια χρήσης |
https://creativecommons.org/licenses/by/4.0/ |