Abstract : | The purpose of this thesis is to explore and propose state of the art tree-based machine learning algorithms using the open source software for the banking industry. The company Predicta S.A provide us with a simulated dataset and using many explanatory variables we tried not only to predict the number of customers who churn but also to explain the probability to churn of the credit card program. Because the number of variables were to many, we first analyze the characteristics of the dataset and later we reduce the number of variables using the LASSO method. The number of variables for modelling purpose were 37 and we used algorithms like gradient boosting machine (GBM) extreme gradient boosting (XGBoost) and Bayesian additive regression trees (BART) and many more algorithms. Also, we explore a balancing techniques (under-sampling) and we compere the results without balancing the data. Overall, we conclude that balancing can provide us with better results in specific metrics like balanced accuracy because the algorithms can capture the characteristics of churners but give us better worst results in Adjusted rand index because the models lost many non-churners. Σκοπός αυτής της εργασίας είναι να διερευνήσει και να χρησιμοποιήσει αλγόριθμους μηχανικής μάθησης που βασίζονται σε δέντρα, χρησιμοποιώντας λογισμικό ανοιχτού κώδικα για τον τραπεζικό κλάδο. Η εταιρεία Predicta S.A μας παρέχει ένα προσομοιωμένο σύνολο δεδομένων και χρησιμοποιώντας πολλές επεξηγηματικές μεταβλητές προσπαθούμε όχι μόνο να προβλέψουμε, αλλά και να εξηγήσουμε το ρυθμό χαμένης πελατείας. Επειδή ο αριθμός των μεταβλητών είναι μεγάλος, αναλύουμε πρώτα τα χαρακτηριστικά των δεδομένων και στην συνέχεια προσπαθούμε να μειώσουμε τον αριθμό των μεταβλητών χρησιμοποιώντας τη μέθοδο LASSO. Ο αριθμός των μεταβλητών που χρησιμοποιήθηκαν για τη μοντελοποίηση μετά την μέθοδο LASSO ήταν 37 και χρησιμοποιήσαμε αλγορίθμους όπως η gradient boosting machine (GBM) η extreme gradient boosting (XGBoost) και τα Bayesian additive regression trees (BART) και πολλούς άλλους αλγόριθμους. Επίσης, διερευνάμε διάφορες τεχνικές δειγματοληψίας και συγκρίνουμε τα αποτελέσματα χωρίς την εξισορρόπηση των δεδομένων. Συνολικά καταλήγουμε στο συμπέρασμα ότι η εξισορρόπηση μπορεί να μας προσφέρει καλύτερα αποτελέσματα σε συγκεκριμένες μετρήσεις όπως το balanced accuracy επειδή οι αλγόριθμοι μπορούν να καταγράψουν τα χαρακτηριστικά των πελατών που σταμάτησαν να χρησιμοποιούν την υπηρεσία καλύτερα αλλά μας δίνουν χειρότερα αποτελέσματα σε άλλες μετρήσεις όπως τον Adjusted rand index επειδή τα μοντέλα χάνουν πολλούς ενεργούς πελάτες.
|
---|