Abstract : | “Big Data”, named after the massive volume of both structured and unstructured data, led to an explosion of new methods in data manipulation and data analysis. With the growth of Computational statistics techniques to assist these new methods, it is worth to mention that traditional approaches are not replaced but are reinforced to make more robust predictions and give better results. Under this scope, Data Mining is a new science that was recently developed for delivering the extracted information in a way that humans can comprehend and make better decisions. This pool of pattern recognition methods includes Ensemble algorithms, which have been developed over two decades and are very popular in practice due to their ability to boost the predictability performance of statistical methods. These meta -algorithms combine several techniques into one predictive model and aim to decrease variance or bias. Under the scope of Pattern recognition where the prediction of the error plays important role, this thesis aims to compare various Ensemble algorithms with a very famous simple probabilistic algorithm, that of Naïve Bayes, which even today is considered as a method with a very low generalization error and can compete the robustness of Ensemble methods. Ο όρος “Big Data”, ο οποίος προέρχεται από τον τεράστιο όγκο δομημένων αλλά και μη δομημένων δεδομένων που παράγονται κάθε λεπτό, οδήγησε στην ανάπτυξη νέων μεθόδων επεξεργασίας και ανάλυσης τους. Για το σκοπό αυτό, οι τεχνικές υπολογιστικής στατιστικής (Computational Statistics Techniques) είναι ευρέως διαδεδομένες. Αξίζει να σημειωθεί ότι οι νέες αυτές τεχνικές δεν αντικαθιστούν τις κλασσικές μεθόδους αλλά τις ενισχύουν ώστε να δίνουν βελτιωμένες προβλέψεις. Πάνω σε αυτή την ανάγκη έχει βασιστεί και η ανάπτυξη μιας νέας επιστήμης αυτής της Εξόρυξης Δεδομένων (Data Mining), οπού στόχος της είναι η πληροφορία που θα εξαχθεί να είναι κατανοητή προς τον άνθρωπο ώστε να πάρει τις κατάλληλες αποφάσεις. Σε αυτό το σύνολο μεθόδων που συνθέτουν την αναγνώριση προτύπων (Pattern Recognition) ανήκουν και οι εφαρμογές των αλγορίθμων συλλογικής μάθησης (Ensemble Methods). Οι εφαρμογές αυτές έχουν αναπτυχθεί πάνω απο δύο δεκαετίες και είναι πάρα πολύ δημοφιλείς λόγω της ιδιότητας τους να βελτιώνουν την επίδοση των προβλέψεων των στατιστικών μοντέλων. Οι συγκεκριμένοι μετά -αλγόριθμοι, συνδυάζουν αρκετές τεχνικές σε ένα μοντέλο με σκοπό να μειώσουν τη διακύμανση και τη μεροληψία. Κάτω από το πρίσμα της αναγνώρισης προτύπων (Pattern Recognition) όπου η εκτίμηση του σφάλματος παίζει σημαντικό ρόλο, σκοπός της παρούσας διπλωματικής είναι η σύγκριση μεταξύ διαφόρων αλγορίθμων συλλογικής μάθησης (Ensemble Methods) με μια απλή πιθανοτική μέθοδο όπως αυτή της Naïve Bayes, η οποία ακόμα και σήμερα θεωρείται ότι έχει αρκετά χαμηλό γενικό σφάλμα και μπορεί να ανταγωνιστεί τη δυνατή απόδοση των μεθόδων συλλογικής μάθησης.
|
---|