Περίληψη : | In this thesis we experimented with deep learning techniques in order to design regressionmodels that can estimate the risk of customers of NBG depending on the legal reports that theLegal Department of NBG has extracted, in order to conclude if the associated customer iscapable of paying off. NBG has provided us with an imbalanced dataset of 1,100 annotatedlegal reports. There are 4 categories of risk according to this dataset: ‘not known’, ‘low-risk’,‘intermediate-risk’, and ‘high-risk’. Due to computational limitations, tuning was performedmanually, by trying many different hyperparameters and keeping the optimal combinations ofthem. Also, we experimented with pretrained Greek-BERT embeddings and with Word2VEcembeddings which were constructed manually with open-source Greek corpora. Moreover,inspired from existing architectures which are commonly used on image data, we propose anovel combination of them which is suitable for text data as well. Our proposed combinationcontains features from the Inception (Google) and Deep Pyramid models, aiming to increasethe receptive field of our models. We experimented with Bi-LSTMs with Attention, DeepPyramid CNNs, Dilated CNNs, Inception models combined with CNNs and Bi-LSTMs withAttention and pre-trained Greek-BERT. Because our dataset was relatively small, we used 10-fold Cross Validation with Stratified Sampling for models. In addition, in order to form thefinal predictions on the test set we used two approaches. The first was to take the average ofthe in-fold predictions and the second was to take a weighted average of them, where theweights extraction depends on the MAE of the predictions. Last, we computed our models’performances in the entire dataset and with the ‘not known’ category excluded. Ourexperimental results showed, in both dataset formats, that Inception and Deep Pyramid modelswith pre-trained Greek-BERT embeddings and the weighted average approach, outperformwell established architectures in the field of NLP. Στην παρούσα διπλωματική εργασία πειραματιστήκαμε με τεχνικές βαθιάς μάθησης (DeepLearning) προκειμένου να σχεδιάσουμε μοντέλα παλινδρόμησης ικανά να διαμορφώνουνεκτιμήσεις, όσον αφορά το ρίσκο χορήγησης δανείου της Εθνικής Τράπεζας της Ελλάδος προςτους πελάτες της μέσα από τις νομικές γνωματεύσεις του Νομικού της Τμήματος. Η ΕθνικήΤράπεζα της Ελλάδος μας έδωσε πρόσβαση σε 1,100 επισημειωμένες νομικές γνωματεύσεις,που η κατανομή των κατηγοριών κινδύνου παρουσίαζε ασυμμετρία. Οι κατηγορίες κινδύνουστο συγκεκριμένο σύνολο δεδομένων ήταν: άγνωστο, χαμηλό ρίσκο, κανονικό ρίσκο καιυψηλό ρίσκο. Λόγω υπολογιστικών περιορισμών η αναζήτηση βέλτιστων υπερπαραμέτρωνδιεκπεραιώθηκε χειροκίνητα, δηλαδή χωρίς την χρήση κάποιας υπάρχουσαςαυτοματοποιημένης διαδικασίας. Συνεπώς, για την εύρεση βέλτιστων υπερπαραμέτρωνγινόταν δοκιμή συγκεκριμένων συνδυασμών και καταγραφή των αποτελεσμάτων τους, έωςότου βρεθεί ο βέλτιστος συνδυασμός. Επιπλέον, στα πειράματά της παρούσας εργασίαςχρησιμοποιήθηκαν 2 διαφορετικοί τρόποι αριθμητικής αναπαράστασης λέξεων. Ο πρώτοςήταν μέσω του προ-εκπαιδευμένου γλωσσικού μοντέλου Greek-BERT και δεύτεροςδιεκπεραιώθηκε χειροκίνητα μέσω του μοντέλου Word2Vec χρησιμοποιώντας διαθέσιμασώματα κειμένων στα ελληνικά. Επιπροσθέτως, εμπνευσμένοι από γνωστά εγκαθιδρυμέναμοντέλα τα οποία χρησιμοποιούνται, κατά κύριο λόγο, σε δεδομένα εικόνας, προτείνουμε έναννέο συνδυασμό αυτών ο οποίος μπορεί να χρησιμοποιηθεί και σε δεδομένα κειμένου. Αυτός ονέος συνδυασμός εμπεριέχει στοιχεία και χαρακτηριστικά από τα μοντέλα Inception τηςGoogle και τα Deep Pyramid CNNs, με σκοπό την αύξηση του δεκτικού πεδίου των μοντέλωνμας. Επομένως, πειραματιστήκαμε με τα μοντέλα Bi-LSTM με μηχανισμό Attention, DeepPyramid CNNs, Dilated CNNs, Inception σε συνδυασμό με CNNs και Bi-LSTM με μηχανισμόAttention και, τέλος, με το προ-εκπαιδευμένο μοντέλο Greek-BERT. Επειδή το διαθέσιμοσύνολο δεδομένων ήταν σχετικά μικρό, χρησιμοποιήθηκε κατά την εκπαίδευση των μοντέλωνη τεχνική της στρωματοποιημένης επικύρωσης 10 τμημάτων (10-fold Cross Validation withStratified sampling). Στη συνέχεια, προκειμένου να διαμορφωθούν οι τελικές προβλέψεις στοσύνολο ελέγχου (test set) έγινε χρήση δύο τεχνικών. Η πρώτη ήταν η εκτίμηση των τελικώνπροβλέψεων, ως τον μέσο όρο των 10 διαφορετικών προβλέψεων κατά την διαδικασία τηςστρωματοποιημένης επικύρωσης 10 τμημάτων, και η δεύτερη ήταν η εκτίμηση των τελικώνπροβλέψεων ως ένας σταθμισμένος μέσος όρος των 10 διαφορετικών προβλέψεων κατά τηνδιαδικασία της στρωματοποιημένης επικύρωσης 10 τμημάτων, που τα σταθμά (weights) θαεξάγονταν λαμβάνοντας υπόψη το μέσο απόλυτο σφάλμα (mean absolute error) τωνπροβλέψεων. Τέλος, έγινε καταγραφή και σύγκριση των μοντέλων που χρησιμοποιήθηκαν σεολόκληρο το σύνολο δεδομένων αλλά και στο σύνολο δεδομένων χωρίς την κατηγορίαάγνωστο. Τα πειραματικά αποτελέσματα, έδειξαν ότι και στα 2 σετ δεδομένων, τα μοντέλαInception και Deep Pyramid με την χρήση του σταθμισμένου μέσου όρου και την αριθμητικήαναπαράσταση λέξεων Greek-BERT, ήταν καλύτερα από τα υπάρχοντα εγκαθιδρυμέναμοντέλα επεξεργασίας φυσικής γλώσσας.
|
---|