Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Στατιστικής / Department of Statistics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Experimental comparison of ensemble methods with different approaches of Naïve Bayes classifier in mixed data

Δημιουργός :	Μαυροματάκη, Ελπίδα

Συντελεστής :	Μπεσμπέας, Παναγιώτης (Επιβλέπων καθηγητής) Athens University of Economics and Business, Department of Statistics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	98p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7364

Περίληψη :	“Big Data”, named after the massive volume of both structured and unstructured data, led to an explosion of new methods in data manipulation and data analysis. With the growth of Computational statistics techniques to assist these new methods, it is worth to mention that traditional approaches are not replaced but are reinforced to make more robust predictions and give better results. Under this scope, Data Mining is a new science that was recently developed for delivering the extracted information in a way that humans can comprehend and make better decisions. This pool of pattern recognition methods includes Ensemble algorithms, which have been developed over two decades and are very popular in practice due to their ability to boost the predictability performance of statistical methods. These meta -algorithms combine several techniques into one predictive model and aim to decrease variance or bias. Under the scope of Pattern recognition where the prediction of the error plays important role, this thesis aims to compare various Ensemble algorithms with a very famous simple probabilistic algorithm, that of Naïve Bayes, which even today is considered as a method with a very low generalization error and can compete the robustness of Ensemble methods. Ο όρος “Big Data”, ο οποίος προέρχεται από τον τεράστιο όγκο δομημένων αλλά και μη δομημένων δεδομένων που παράγονται κάθε λεπτό, οδήγησε στην ανάπτυξη νέων μεθόδων επεξεργασίας και ανάλυσης τους. Για το σκοπό αυτό, οι τεχνικές υπολογιστικής στατιστικής (Computational Statistics Techniques) είναι ευρέως διαδεδομένες. Αξίζει να σημειωθεί ότι οι νέες αυτές τεχνικές δεν αντικαθιστούν τις κλασσικές μεθόδους αλλά τις ενισχύουν ώστε να δίνουν βελτιωμένες προβλέψεις. Πάνω σε αυτή την ανάγκη έχει βασιστεί και η ανάπτυξη μιας νέας επιστήμης αυτής της Εξόρυξης Δεδομένων (Data Mining), οπού στόχος της είναι η πληροφορία που θα εξαχθεί να είναι κατανοητή προς τον άνθρωπο ώστε να πάρει τις κατάλληλες αποφάσεις. Σε αυτό το σύνολο μεθόδων που συνθέτουν την αναγνώριση προτύπων (Pattern Recognition) ανήκουν και οι εφαρμογές των αλγορίθμων συλλογικής μάθησης (Ensemble Methods). Οι εφαρμογές αυτές έχουν αναπτυχθεί πάνω απο δύο δεκαετίες και είναι πάρα πολύ δημοφιλείς λόγω της ιδιότητας τους να βελτιώνουν την επίδοση των προβλέψεων των στατιστικών μοντέλων. Οι συγκεκριμένοι μετά -αλγόριθμοι, συνδυάζουν αρκετές τεχνικές σε ένα μοντέλο με σκοπό να μειώσουν τη διακύμανση και τη μεροληψία. Κάτω από το πρίσμα της αναγνώρισης προτύπων (Pattern Recognition) όπου η εκτίμηση του σφάλματος παίζει σημαντικό ρόλο, σκοπός της παρούσας διπλωματικής είναι η σύγκριση μεταξύ διαφόρων αλγορίθμων συλλογικής μάθησης (Ensemble Methods) με μια απλή πιθανοτική μέθοδο όπως αυτή της Naïve Bayes, η οποία ακόμα και σήμερα θεωρείται ότι έχει αρκετά χαμηλό γενικό σφάλμα και μπορεί να ανταγωνιστεί τη δυνατή απόδοση των μεθόδων συλλογικής μάθησης.

Περίληψη :

“Big Data”, named after the massive volume of both structured and unstructured data, led to an explosion of new methods in data manipulation and data analysis. With the growth of Computational statistics techniques to assist these new methods, it is worth to mention that traditional approaches are not replaced but are reinforced to make more robust predictions and give better results. Under this scope, Data Mining is a new science that was recently developed for delivering the extracted information in a way that humans can comprehend and make better decisions. This pool of pattern recognition methods includes Ensemble algorithms, which have been developed over two decades and are very popular in practice due to their ability to boost the predictability performance of statistical methods. These meta -algorithms combine several techniques into one predictive model and aim to decrease variance or bias. Under the scope of Pattern recognition where the prediction of the error plays important role, this thesis aims to compare various Ensemble algorithms with a very famous simple probabilistic algorithm, that of Naïve Bayes, which even today is considered as a method with a very low generalization error and can compete the robustness of Ensemble methods.
Ο όρος “Big Data”, ο οποίος προέρχεται από τον τεράστιο όγκο δομημένων αλλά και μη δομημένων δεδομένων που παράγονται κάθε λεπτό, οδήγησε στην ανάπτυξη νέων μεθόδων επεξεργασίας και ανάλυσης τους. Για το σκοπό αυτό, οι τεχνικές υπολογιστικής στατιστικής (Computational Statistics Techniques) είναι ευρέως διαδεδομένες. Αξίζει να σημειωθεί ότι οι νέες αυτές τεχνικές δεν αντικαθιστούν τις κλασσικές μεθόδους αλλά τις ενισχύουν ώστε να δίνουν βελτιωμένες προβλέψεις. Πάνω σε αυτή την ανάγκη έχει βασιστεί και η ανάπτυξη μιας νέας επιστήμης αυτής της Εξόρυξης Δεδομένων (Data Mining), οπού στόχος της είναι η πληροφορία που θα εξαχθεί να είναι κατανοητή προς τον άνθρωπο ώστε να πάρει τις κατάλληλες αποφάσεις. Σε αυτό το σύνολο μεθόδων που συνθέτουν την αναγνώριση προτύπων (Pattern Recognition) ανήκουν και οι εφαρμογές των αλγορίθμων συλλογικής μάθησης (Ensemble Methods). Οι εφαρμογές αυτές έχουν αναπτυχθεί πάνω απο δύο δεκαετίες και είναι πάρα πολύ δημοφιλείς λόγω της ιδιότητας τους να βελτιώνουν την επίδοση των προβλέψεων των στατιστικών μοντέλων. Οι συγκεκριμένοι μετά -αλγόριθμοι, συνδυάζουν αρκετές τεχνικές σε ένα μοντέλο με σκοπό να μειώσουν τη διακύμανση και τη μεροληψία. Κάτω από το πρίσμα της αναγνώρισης προτύπων (Pattern Recognition) όπου η εκτίμηση του σφάλματος παίζει σημαντικό ρόλο, σκοπός της παρούσας διπλωματικής είναι η σύγκριση μεταξύ διαφόρων αλγορίθμων συλλογικής μάθησης (Ensemble Methods) με μια απλή πιθανοτική μέθοδο όπως αυτή της Naïve Bayes, η οποία ακόμα και σήμερα θεωρείται ότι έχει αρκετά χαμηλό γενικό σφάλμα και μπορεί να ανταγωνιστεί τη δυνατή απόδοση των μεθόδων συλλογικής μάθησης.

Λέξη κλειδί :	Συλλογική μάθηση Υπολογιστική στατιστική Αναγνώριση προτύπων Πρόβλεψη Naïve Bayes Ensemble methods Pattern recognition Machine learning Prediction

Διαθέσιμο από :	2019-10-22 01:24:14

Ημερομηνία έκδοσης :	10/21/2019

Ημερομηνία κατάθεσης :	2019-10-22 01:24:14

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Mavromataki_2019.pdf

Τύπος: application/pdf

Είσοδος