Συλλογές
Τίτλος Machine learning applications in credit scoring
Εναλλακτικός τίτλος Αλγόριθμοι μηχανικής μάθησης με εφαρμογές στον πιστωτικό κίνδυνο
Δημιουργός Καρέζος, Ευγένιος, Karezos, Evgenios
Συντελεστής Βασσάλος, Βασίλειος
Athens University of Economics and Business, Department of Informatics
Τύπος Text
Φυσική περιγραφή 72p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7470
Περίληψη Credit Scoring consists of the models and the methods lenders use in order to decide if they are going to grant a loan, mainly a commercial one. The credit scoring techniques estimate the risk of lending of a consumer and not their credit. Many techniques based on statistical models are used in order to make these decisions and these models have to be able to make predictions with great accuracy. The goal is to predict the value of a binary variable that describes if a customer will or will not default on their loan. The main method used up until now was Logistic Regression, but during the last years, Machine Learning algorithms are being used for better Probability to De- fault (PD) predictions. The scope of this survey was to juxtapose these new methods and the traditional Logistic Regression model.In this direction, many Baseline and Ensemble algorithms were used in or- der to test their predictive ability and every algorithm’s parameters were tuned using cross-validation. The performance of each model was evaluated calculating the Area Under Curve (AUC) and the Average Precision Score (APS). Every algorithm was tuned and fitted on each of the four business- wise formulated customer segments and it was desired to outperform the current methodology followed by the company. On every segment, several algorithms were applied in order to distinguish well between good and bad customers.Because the data were highly imbalanced, random Under-sampling was ap- plied in order to balance the percentages of the two categories. Moreover, a new sampling technique called Multiple Under-sampling was introduced but not used, due to computational and time resources.After that, an overall model was built, which used information about all the customers, regardless of the segment where they belonged. These models seemed to perform better than the segment experts. Because of that, they were evaluated on each segment’s Out Of Time (OOT) data in order to com- pare them with one another.Finally, it was concluded that the overall models indeed performed better than the previous ones and it was suggested to the company to change the methodology followed up until now, using only one catholic model based on GBM or some other Ensemble algorithm and not on Logistic Regression.
Ο πιστωτικός κίνδυνος αποτελείται από τα μοντέλα και τις τεχνικές που χρησιμοποιούν οι δανειστές για να αποφασίσουν σχετικά με τη χορήγηση δανείων. Χρησιμοποιούνται πολλές τεχνικές που βασίζονται κυρίως σε στατιστικά μοντέλα, τα οποία είναι κατάλληλα για την πραγματοποίηση προβλέψεων με μεγάλη ακρίβεια. Ο σκοπός είναι να προβλεφθεί η τιμή μίας δίτιμης μεταβλητής που περιγράφει εάν ένας πελάτης θα αθετήσει ή όχι το δάνειό του. Το μοντέλο που χρησιμοποιούταν κατά κόρον μέχρι τώρα είναι αυτό της Λογιστικής Παλινδρόμησης αλλά, αλγόριθμοι Μηχανικής Μάθησης ξεκίνησαν πρόσφατα να εφαρμόζονται σκοπεύοντας να προβλέψουν την πιθανότητα ένας πελάτης να αθετήσει το δάνειό του με μεγαλύτερη ακρίβεια. Ο σκοπός αυτής της έρευνας ήταν να αντιπαραβάλει αυτές τις νέες μεθόδους με το παραδοσιακό μοντέλο Λογιστικής Παλινδρόμησης.Σε αυτήν την κατεύθυνση, πολλοί Baseline και Ensemble αλγόριθμοι εξετάστηκαν. Η προβλεπτική τους ικανότητα ελέγχθηκε έχοντας πρώτα "κουρδίσει" τις παραμέτρους τους χρησιμοποιώντας cross validation. Η απόδοση του κάθε μοντέλου εκτιμήθηκε υπολογίζοντας το Area Under Curve (AUC) και το Average Precision Score (APS). Κάθε αλγόριθμος κουρδίστηκε και έμαθε από τις παρατηρήσεις καθενός από τα προϋπάρχοντα 4 `τμήματα` πελατών και ήταν επιθυμητό να έχει καλύτερη απόδοση από την μεθοδολογία που χρησιμοποιεί η εταιρεία μέχρι σήμερα. Σε κάθε τμήμα πελατών, ο Gradient Boosting Machine (GBM) ήταν αυτός που μπορούσε να διαχωρίσει καλύτερα τους καλούς από τους κακούς πελάτες. Επειδή η κατηγορία των κακών πελατών κατείχε μόνο ένα μικρό ποσοστό των συνολικών δεδομένων σε κάθε τμήμα πελατών, εφαρμόστηκε μία τεχνική τυχαίας δειγματοληψίας ως προς την πλειοψηφική κατηγορία πελατών κρατώντας όλους τους κακούς στο επιλεγμένο δείγμα. ́Ετσι, οι ποσοστώσεις των δύο κατηγοριών ισορροπήθηκαν.Στη συνέχεια, χτίστηκε ένα καθόλικο μοντέλο που χρησιμοποίησε την πληροφορία από όλους τους πελάτες, ανεξαρτήτως του τμήματος στο οποίο ανήκαν. Αυτά τα μοντέλα φάνηκε να έχουν καλύτερη προβλεπτική ικανότητα και για αυτό εξετάστηκε η απόδοσή τους στα Out Of Time (OOT) δεδομένα του κάθε τμήματος πελατών ξεχωριστά.Τελικά, προέκυψε το συμπέρασμα ότι τα καθολικά μοντέλα πράγματι έχουν υψηλότερη προβλεπτική ικανότητα και γι ́ αυτό προτάθηκε στην εταιρεία να αλλάξει την μεθοδολογία που ακολουθείται μέχρι σήμερα χρησιμοποιώντας πλέον ένα μόνο μοντέλο βασισμένο στον Gradient Boosting Machine (GBM) ή σε κάποια άλλη Ensemble μεθοδολογία και όχι στην Λογιστική Παλινδρόμηση.
Λέξη κλειδί Μηχανική μάθηση
Πιστωτικός κίνδυνος
Μεγάλα Δεδομένα
Machine learning
Credit scoring
Big Data
Διαθέσιμο από 2020-01-20 16:46:44
Ημερομηνία έκδοσης 22-11-2019
Ημερομηνία κατάθεσης 2020-01-20 16:46:44
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/