Περίληψη : | Αυτό το έργο στοχεύει να διερευνήσει διαφορετικές τεχνικές μηχανικής μάθησης (Machine Learning -ML), με έμφαση σε μοντέλα πολλαπλής παλινδρόμησης και αναλύσεις Principal Components, να εντοπίσει και να εφαρμόσει τις τεχνικές εκείνες οι οποίες είναι οι καταλληλότερές για την πρόβλεψη του πιστωτικού κινδύνου, πιο συγκεκριμένα, για την πρόβλεψη εάν ένας δυνητικός εταιρικός πελάτης δανείου πρόκειται να αθετήσει την αποπληρωμή ή όχι. Οι στόχοι του έργου περιλαμβάνουν τη διερεύνηση τεχνικών ML και εύρεση των καταλληλότερων για τη μοντελοποίηση πιστωτικού κινδύνου, την ανάπτυξη των αλγορίθμων για τις επιλεγμένες τεχνικές, που θα πρέπει να είναι σε θέση να επιτύχουν βαθμολογία R2 άνω του 0.5 στα μοντέλα πολλαπλής γραμμικής παλινδρόμησης, ούτως ώστε να κριθεί το εκάστοτε μοντέλο ότι ερμηνεύει ένα σημαντικό ποσοστό του δείγματος και την εύρεση της καλύτερης χρήσης του διαθέσιμου συνόλου δεδομένων. Τα δεδομένα που χρησιμοποιούνται σε αυτή τη διατριβή παρέχονται από το διαδικτυακό ιστότοπο Kaggle, ο οποίος έχει συλλέξει δεδομένα από μια πληθώρα χρηματοπιστωτικών ιδρυμάτων που αξιολογούν διάφορα ποσοτικά και ποιοτικά χαρακτηριστικά υποψηφίων δανειοληπτών. Οι πληροφορίες που έχουν συλλεχθεί συνδυάζονται παράλληλα με μια μη αυτόματη αξιολόγηση πιστοληπτικής ικανότητας η οποία γίνεται από έναν διαχειριστή για να καθορίσει σε ποιους εταιρικούς πελάτες θα χορηγούσε πιστώσεις η τράπεζα. Τα αποτελέσματα της παρούσας έρευνας καταλήγουν σε ένα μοντέλο πολλαπλής γραμμικής παλινδρόμησης, το οποίο προβλέπει ως ένα βαθμό το ύψος του δανείου που εγκρίνεται για κάθε υποψήφιο δανειολήπτη, ωστόσο διαπιστώνεται πως το πρόβλημα είναι πολυπαραγοντικό και πως οι 10 επιλεχθείσες μεταβλητές που εισήχθησαν στην ανάλυση κατόπιν στατιστικής επεξεργασίας κυρίων συνιστωσών, μπορούν να ερμηνεύσουν μόνο το 22% του συνόλου των δεδομένων. Συνεπώς, η παρούσα εργασία αποτελεί ένα πρώτο βήμα για την υιοθέτηση ενός συστήματος μηχανικής μάθησης για την μοντελοποίηση του πιστωτικού κινδύνου, ωστόσο απαιτείται επιπρόσθετη έρευνα με περισσότερες παραμέτρους και συγκεκριμένη χρονική διακριτοποίηση για την κατάληξη σε ένα ή περισσότερα προβλεπτικά μοντέλα με μεγαλύτερη ακρίβεια. This project aims to explore different Machine Learning (ML) techniques, with an emphasis on multiple regression models and Principal Components Analyses, to identify and apply those techniques that are most suitable for credit risk prediction,more specifically , to predict whether a potential corporate loan customer is going to secure a large or small loan amount. The objectives of the project include investigating ML techniques and finding the most suitable ones for credit risk modeling, developing the algorithms for the selected techniques, which should be able to achieve an R2 score above 0.5 in the multiple linear regression models, so that each model is judged to explain a significant proportion of the sample and finding the best use of the available data set. The data used in this thesis is provided by the online website Kaggle which has collected data from a multitude of financial institutions that assess various quantitative and qualitative characteristics of prospective borrowers. The collected information is combined alongside a manual credit assessment performed by an administrator to determine which corporate customers the bank would extend credit to. The results of this research result in a multiple linear regression model which predicts to a certain extent the amount of the loan approved for each prospective borrower, however it is found that the problem is multifactorial and that the 10 selected variables entered into the analysis after statistical processing of master components, they can only interpret 22% of the total data. Therefore, this work is a first step towards adopting a machine learning system for credit risk modeling, however additional research with more parameters and specific time discretization is needed to arrive at one or more predictive models with greater accuracy.
|
---|