Συλλογές | |
---|---|
Τίτλος |
Feature selection algorithms in machine learning |
Εναλλακτικός τίτλος |
Αλγόριθμοι επιλογής χαρακτηριστικών στη μηχανική μάθηση |
Δημιουργός |
Σωτήρχου, Εμμανουέλα, Sotirchou, Emmanouela |
Συντελεστής |
Βασσάλος, Βασίλειος Athens University of Economics and Business, Department of Informatics Παπασταμούλης, Παναγιώτης Καρλής, Δημήτριος |
Τύπος |
Text |
Φυσική περιγραφή |
45p. |
Γλώσσα |
en |
Αναγνωριστικό |
http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7507 |
Περίληψη |
The aim of feature selection is to pick a subset of relevant features for use in model construction by reducing the complexity of this model. Due to feature selection, interpretation of the model becomes easier avoiding overfitting problems, simulatneously. However, the majority of traditional feature selection methods, such as filter or wrapper methods, do not take as consideration the joint covariate information of predictors and as a result important predictors are filtered out and unimportant predictors are picked up. In this thesis, feature selection algorithms will be implemented to a data set whose the number of entities is compartively much larger than the number of features. Furthermore, we have to deal with the huge dimensionality of variables by distinguishing the predictors which really carry the most important information for the target variable.Initially, data cleaning is performed. Irrelevant variables are removed. Variables carrying the sameinformation and features which are not predictors are filtered out, too. After the suitalble preparation of data, a variation of Sure Independence Screening is implemented as a method for variableselection. Penalty functions and tuning methods for finding the regularization parameter are investigated. Techniques are applied concerning the amelioration of computational time, too. The mostimportant features are then selected. Next step is the estimation and interpretation of coefficients.Finally, in order to understand better if this particular feature selection algorithm works, the initialproblem is transformed to a classification task. Σκοπός των μεθόδων επιλογής χαρακτηριστικών (feature selection) είναι η επιλογή ενός υποσυνόλου μεταβλητών που στοχεύει στην κατασκευή μοντέλων μειώνοντας ταυτόχρονα την πολυπλοκότητα τους. Επίσης, με αυτές τις μεθόδους η ερμηνεία του μοντέλου καθίσταται ευκολότερη αποφεύγοντας παράλληλα προβλήματα overfitting. Ωστόσο, η πλειοψηφία των παραδοσιακών μεθόδων επιλογής χαρακτηριστικών δεν λαμβάνουν υπόψη την από κοινού πληροφορία των μεταβλητών και ως εκ τούτου σημαντικές μεταβλητές αφαιρούνται, ενώ ασήμαντες μεταβλητές συλλέγονται. Σε αυτή τη διατριβή, οι αλγόριθμοι επιλογής χαρακτηριστικών θα εφαρμοστούν σε ένα σύνολο δεδομένων του οποίου ο αριθμός των εγγραφών είναι συγκριτικά πολύ μεγαλύτερος από τον αριθμό των χαρακτηριστικών. Επιπλέον, ο πολυδιάστατος χαρακτήρας των μεταβλητών θα πρέπει να αντιμετωπιστεί, απομονώνοντας τις μεταβλητές που πραγματικά φέρουν τη πιο σημαντική πληροφορία για την εξαρτημένη μεταβλητή. Αρχικά, αφαιρούνται μεταβλητές που δε σχετίζονται με το ερώτημα. Μεταβλητές που φέρουν την ίδια πληροφορία και μεταβλητές που δεν κρίνονται κατάλληλες για την πρόβλεψη της εξαρτημένης μεταβλητής απομακρύνονται. Μετά την κατάλληλη προετοιμασία των δεδομένων, παραλλαγή της μεθόδου Sure Independence Screening (SIS) εφαρμόζεται ως μέθοδος για επιλογή χαρακτηριστικών. Στη μελέτη αυτή, εξετάζονται τόσο οι συναρτήσεις ποινών (penalty functions), όσο και οι μέθοδοι ρύθμισης παραμέτρων (tuning regularization methods). Στη συνέχεια επιλέγονται τα πιο σημαντικά χαρακτηριστικά με κριτήριο τη σχετική τους συχνότητα. Το επόμενο βήμα είναι η εκτίμηση και η ερμηνεία των συντελεστών των μεταβλητών αυτών. Τέλος, για να κατανοήσουμε καλύτερα αν αυτός ο συγκεκριμένος αλγόριθμος λειτουργεί, το αρχικό πρόβλημα μετασχηματίζεται σε πρόβλημα ταξινόμησης (classification task). |
Λέξη κλειδί |
Επιλογή χαρακτηριστικών Μηχανική μάθηση Ταξινόμηση Feature selection Machine learning Classification ISIS |
Διαθέσιμο από |
2020-01-26 14:06:07 |
Ημερομηνία έκδοσης |
2019 |
Ημερομηνία κατάθεσης |
2020-01-26 14:06:07 |
Δικαιώματα χρήσης |
Free access |
Άδεια χρήσης |
https://creativecommons.org/licenses/by/4.0/ |