Collections : |
---|
Title : | A metadata monitoring framework for explainable outlier detection |
---|
Alternative Title : | Πλαίσιο παρακολούθησης μεταδεδομένων για εξηγήσιμη ανίχνευση απομακρυσμένων τιμών |
---|
Creator : | Γραβιάς, Λουκάς Gravias, Loukas |
---|
Contributor : | Κωτίδης, Ιωάννης (Επιβλέπων καθηγητής) Κουτσόπουλος, Ιορδάνης (Εξεταστής) Βασσάλος, Βασίλειος (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution) |
---|
Type : | Text |
---|
Extent : | 82p. |
---|
Language : | en |
---|
Identifier : | http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8144 |
---|
Abstract : | Η εποχή των μεγάλων δεδομένων κάνει την διαδικασία παρακολούθησής τους ιδιαίτερα δύσκολη και πολύπλοκη για τους οργανισμούς και τις εταιρείες, ενώ η διασφάλιση υψηλής ποιότητας δεδομένων εξασφαλίζει τις κατάλληλες πληροφορίες για την διαδικασία λήψης αποφάσεων. Οι περισσότεροι οργανισμοί δεν διαθέτουν μια σταθερή διαδικασία ελέγχου της ποιότητας των δεδομένων σε όλα τους τα τμήματα. Η παρούσα πτυχιακή εργασία παρουσιάζει ένα λογισμικό εργαλείο για την παρακολούθηση της ποιότητας των δεδομένων και τον εντοπισμό ανωμαλιών το οποίο μπορεί να χρησιμοποιηθεί ανεξαρτήτως των υποκειμένων δεδομένων. Ο στόχος της προτεινόμενης μεθόδου είναι η διευκόλυνση του γρήγορου εντοπισμού ανωμαλιών τόσο σε επίπεδο ενός στοιχείου όσο και σε επίπεδο πίνακα κατά την πάροδο του χρόνου. Αυτό επιτυγχάνεται μέσω ενός συστήματος διαχείρισης μεταδεδομένων το οποίο εξάγει μεταδεδομένα από μια αποθήκη μεγάλων δεδομένων, ενός συστήματος παρακολούθησης της ποιότητας των δεδομένων το οποίο αυτόματα εντοπίζει αλλαγές σε βασικούς δείκτες ποιότητας στην πάροδο του χρόνου και ενός εξηγήσιμου συστήματος ανίχνευσης απομακρυσμένων τιμών το οποίο μπορεί να βοηθήσει στον εντοπισμό προβληματικών δεδομένων και στην κατανόηση των λόγων για τους οποίους η εκάστοτε τιμή θεωρείται ανωμαλία. Η προτεινόμενη μεθοδολογία ελέγχεται σε δύο διαφορετικές μελέτες περίπτωσης. The era of big data is making data monitoring difficult and cumbersome for organizations while high data quality is paramount for ensuring correct input for decision making. Most organizations lack consistent data quality checking practices across different departments. The present thesis describes the development of a web-based tool for data quality monitoring and detection of anomalous behavior which can be used irrespective of the different underlying data sources. The goal of the proposed approach is to facilitate quick identification of anomalies through automated detection both on an individual data point level and on table level across time. This is achieved through a metadata management system which extracts useful metadata from a big data warehouse, a quality monitoring system that automatically detects changes in key quality metrics across time and an explainable outlier detection system that can aid in locating problematic data points and understanding why they are considered anomalies. The proposed methodology is tested on two case studies. |
---|
Subject : | Διαχείριση μεταδεδομένων Παρακολούθηση ποιότητας δεδομένων Σκιαγράφηση δεδομένων Εντοπισμός απομακρυσμένων τιμών Μεγάλα Δεδομένα Metadata management Data quality monitoring Data profiling Outlier detection Big Data |
---|
Date Available : | 2020-12-07 19:40:44 |
---|
Date Issued : | 05-12-2020 |
---|
Date Submitted : | 2020-12-07 19:40:44 |
---|
Access Rights : | Free access |
---|
Licence : |
---|