Περίληψη : | Μια βασική ενέργεια για την επίτευξη μιας τεκμηριωμένης ανάλυσης είναι ο εντοπισμός των ακραίων τιμών. Παρόλο που οι ακραίες τιμές συχνά γίνονται αντιληπτές ως λανθασμένος υπολογισμός ή περιττά δεδομένα, μπορούν να αποφέρουν σημαντικές πληροφορίες. Για το λόγο αυτό, είναι σημαντικό να εντοπιστούν και να αναλυθούν, διότι μπορούν να διαδραματίσουν καθοριστικό ρόλο στη δημιουργία μοντέλων δεδομένων και στην εξαγωγή συμπερασμάτων. Στην παρούσα διατριβή θα παρουσιάσουμε μια επιλεκτική ανασκόπηση ορισμένων βασικών μεθόδων κυρίως σε πολυμεταβλητά δεδομένα που σχετίζονται με την ανίχνευση ακραίων τιμών. Στο δεύτερο κεφάλαιο, η παρούσα διατριβή παρέχει μια συζήτηση των πλεονεκτημάτων και μειονεκτημάτων κάθε μεθόδου και ένα παράδειγμα προσομοίωσης. Αρχικά, παρουσιάζεται η μέθοδος Mahalanobis Distance που μετρά την απόσταση ενός σημείου δεδομένων από μια κατανομή. Δεύτερον, αναφέρεται η μέθοδος που ονομάζεται K-Nearest Neighbor, η οποία θεωρείται μια μέθοδος που βασίζεται στην απόσταση και ανιχνεύει τις ακραίες τιμές συγκρίνοντας την απόσταση ενός σημείου δεδομένων από τους k nearest neighbors . Η τρίτη μέθοδος είναι η μέθοδος Local Outlier Factor (LOF). Ο LOF μετρά την τοπική απόκλιση της πυκνότητας ενός σημείου δεδομένων σε σχέση με τα γειτονικά του σημεία. Στη συνέχεια, η τέταρτη μέθοδος είναι το Random Forest που χρησιμοποιείται ως μέθοδος ανίχνευσης ακραίων τιμών. Το Random Forest μπορεί να χρησιμοποιηθεί για την ανίχνευση ακραίων τιμών παρατηρώντας το μέσο μήκος διαδρομής ενός σημείου δεδομένων μεταξύ πολλαπλών δέντρων απόφασης. Η πέμπτη μέθοδος που παρουσιάζεται στην παρούσα διατριβή ονομάζεται Isolation Forest και είναι μια μέθοδος συνόλου που δημιουργεί ένα τυχαίο δάσος από δέντρα απόφασης που απομονώνουν μεμονωμένα σημεία δεδομένων. Τελευταία μέθοδος σε αυτή την διπλωματική, είναι η One-class Support Vector Machine (SVM). Ο SVM είναι ένας ισχυρός αλγόριθμος μηχανικής μάθησης που χρησιμοποιείται για εργασίες ανίχνευσης ακραίων τιμών και ο κύριος στόχος του είναι η εύρεση του βέλτιστου υπερεπιπέδου. Τα σημεία δεδομένων εκτός αυτού του υπερεπιπέδου θεωρούνται πιθανές ακραίες τιμές.Στο τρίτο κεφάλαιο αναλύουμε τρία διαφορετικά σύνολα δεδομένων που το καθένα έχει διαφορετικά χαρακτηριστικά. Συγκεκριμένα, το πρώτο είναι ένα μικρό σύνολο δεδομένων με λίγες αλλά διαφορετικού τύπου μεταβλητές , το δεύτερο έχει πολλές παρατηρήσεις και περισσότερες μεταβλητές και το τρίτο είναι ένα μεγάλο πραγματικό σύνολο δεδομένων για απάτες σε πιστωτικές κάρτες. Έτσι, εφαρμόζοντας και τις έξι μεθόδους σε κάθε σύνολο δεδομένων, παρατηρούμε τις δυσκολίες και τις επιδόσεις κάθε μεθόδου ανάλογα με τα χαρακτηριστικά των αντίστοιχων δεδομένων.Ειδικότερα, τα ευρήματα της παρούσας διατριβής για κάθε μέθοδο συνοψίζονται παρακάτω. Κάθε μέθοδος παρουσιάζει τα δικά της μοναδικά πλεονεκτήματα και περιορισμούς όταν εφαρμόζεται σε διαφορετικά σύνολα δεδομένων. Η μέθοδος Mahalanobis, ευαίσθητη στην κατανομή των δεδομένων, παρουσίασε μειωμένη αποτελεσματικότητα σε σύνολα δεδομένων με διαφορετικές κατανομές. Η KNN υπερείχε, ιδίως όταν ο αριθμός των γειτόνων και οι μετρικές απόστασης προσαρμόζονταν στο σύνολο δεδομένων. Η LOF παρείχε πολύτιμες πληροφορίες, αλλά δυσκολεύτηκε σε ανομοιογενεί σύνολα δεδομένων. Το Random Forest επέδειξε ανθεκτικότητα, ιδιαίτερα κατάλληλη για μεγάλα σύνολα δεδομένων. Το Isolation Forest αναδείχθηκε ως ευέλικτο εργαλείο σε διάφορους τύπους συνόλων δεδομένων. Το SVM προσέφερε υψηλή ακρίβεια όταν στα αρχικά δεδομένα εκμάθησης υπάρχει μικρός αριθμός ακραίων τιμών . A key action to achieve a well-founded analysis is the identification of outliers. Even though outliers are often perceived as miscalculation or noise, they can bring about significant information. For this reason, it is important to identify and analyze them because they can play a crucial role in modelling and inference. In this thesis, we will present a selective review of some key methods mainly on multivariate data related to outlier detection. In the second chapter, this thesis provides a discussion of the advantages and disadvantages of each method and a simulated example. First, it is presented the Mahalanobis Distance method that measures the distance of a data point from a distribution. Second, it is referred the method called K-Nearest Neighbor which is considered a distance-based method that detects outliers by comparing the distance of a data point to its k nearest neighbors. The third method is the Local Outlier Factor (LOF) method. The LOF measures the local deviation of the density of a data point relative to its neighboring points. Then, the fourth method is the Random Forest used as an outlier detection method. Random Forest can be used to detect outliers by observing the average depth of a data point in multiple decision trees. The fifth method that is presented in this thesis is called Isolation Forest and is an ensemble method that creates a random forest of decision trees that isolate individual data points. Last method in this thesis is One-class Support Vector Machine (SVM). SVM is a powerful machine learning algorithm used for outlier detection tasks and its main objective is to find the optimal hyperplane. Data points out of this hyperplane are considered possible outliers. In chapter three we analyze three different datasets that each have different characteristics. Specifically, the first is a small dataset with few variables but multivariate, the second has many observations and a few more variables and the third is a large real dataset about frauds in credits cards. Thus, by applying the methods to each dataset, we observe the difficulties and performance of each method depending on the characteristics of the respective data.In particular, the findings of this thesis for each method are summarized below. Each method presents its own unique strengths and limitations when applied to diverse datasets. Mahalanobis Distance, sensitive to data distribution, exhibited diminished effectiveness in datasets with complex distributions. KNN excelled, particularly when the number of neighbors and distance metrics were tailored to the dataset. LOF provided valuable insights but struggled with datasets containing global anomalies. Random Forest demonstrated robustness, particularly suited for large datasets. Isolation Forest emerged as a versatile performer across various dataset types. SVM offered high accuracy with small number of outliers in the training dataset.
|
---|