Abstract : | Η παρούσα διατριβή προσφέρει μια λεπτομερή εξέταση της επιρροής των μεταβλητών GDPR στη μοντελοποίηση της αποχώρησης πελατών στον τραπεζικό τομέα, με έμφαση στις προκλήσεις που παρουσιάζουν τα ατελή και ελλιπή δεδομένα, και την αναζήτηση ισορροπίας μεταξύ της ιδιωτικότητας δεδομένων και της ακρίβειας του μοντέλου. Μέσα από μια ερευνητική ανάλυση και προετοιμασία δεδομένων, η μελέτη αυτή στοχεύει να διαφωτίσει την προβλεπτική δύναμη των δημογραφικών μεταβλητών που σχετίζονται με προσωπικά δεδομένα, ειδικά σε σχέση με την τάση για αποχώρηση πελατών. Αντιμετωπίζει την δυαδική κατηγοριοποίηση των πελατών σύμφωνα με την πιθανότητα αποχώρησής τους, χρησιμοποιώντας αλγόριθμους μηχανικής μάθησης όπως Random Forest, XGBoost, Λογιστική Παλινδρόμηση, Δέντρο Αποφάσεων και K-NN σε ένα σύνολο δεδομένων πλούσιο σε δημογραφικές και εισοδηματικές πληροφορίες. Η έρευνα πλοηγείται μέσα από διάφορα σενάρια, περιλαμβάνοντας την ιδιωτικότητα δεδομένων και σενάρια ατελών δεδομένων, όπως περικοπή δεδομένων και ελλείποντα στοιχεία. Χρησιμοποιεί τεχνικές Διαφορικής Ιδιωτικότητας για να εισάγει θόρυβο στα δεδομένα ευαίσθητα στο GDPR, αξιολογώντας την επίδραση αυτών των προσαρμογών στις προβλεπτικές ικανότητες των μοντέλων. Ειδική έμφαση δίνεται στις μεταβλητές GDPR (ηλικία, χώρα, φύλο), εξερευνώντας τις επιδράσεις τους στην απόδοση του μοντέλου και τις αυτόνομες προβλεπτικές τους ικανότητες. Αυτή η εργασία συνεισφέρει σημαντικά στην προβλεπτική ανάλυση διαμορφώνοντας μια μεθοδολογία που ισορροπεί την ατομική ιδιωτικότητα με την αξιολόγηση των μεταβλητών συμμορφωμένων με το GDPR σε πιστωτικά μοντέλα, υπογραμμίζοντας την σημαντική προβλεπτική αξία των δημογραφικών δεδομένων που προσδιορίζονται ως μεταβλητές GDPR. Υποστηρίζει πρακτικές μοντελοποίησης προσανατολισμένες στην ιδιωτικότητα που διατηρούν την ποιότητα των δεδομένων και συμμορφώνονται με τα ρυθμιστικά πρότυπα, προωθώντας μια προσέγγιση επικεντρωμένη στην ιδιωτικότητα για την προβλεπτική μοντελοποίηση. Η έρευνα υπογραμμίζει τον διασταυρούμενο χώρο της ιδιωτικότητας δεδομένων και της καινοτομίας στη μηχανική μάθηση, αντιμετωπίζοντας τόσο τις τεχνικές όσο και τις ηθικές προκλήσεις της χρήσης δεδομένων This thesis offers a detailed examination of the influence of GDPR variables on modeling customer attrition in the banking sector, with an emphasis on the challenges presented by incomplete and missing data, and the quest for equilibrium between data privacy and model accuracy. Through thorough exploratory analysis and data preprocessing, this study aims to investigate the predictive power of demographic variables associated with personal data, specifically regarding the propensity for customer attrition. It addresses the binary classification of customers according to their likelihood of departure, employing machine learning algorithms such as Random Forest, XGBoost, Logistic Regression, Decision Tree, and K-NN on datasets rich in demographic and income information. The research navigates through various scenarios, encompassing data privacy and scenarios of incomplete data, such as pruned data and missing values. It utilizes differential privacy techniques to inject noise into GDPR-sensitive data, assessing the impact of these adjustments on the models' predictive capabilities. Special focus is placed on GDPR variables (age, country, gender), exploring their effects on model performance and their standalone predictive capacities. This work significantly contributes to predictive analytics by devising a methodology that balances individual privacy with the assessment of GDPR-compliant variables in credit models, underscoring the notable predictive value of the demographic data identified as GDPR variables. It endorses privacy-oriented modeling practices that maintain data quality and comply with regulatory standards, promoting a privacy-focused approach to predictive modeling. The research underscores the intersection of data privacy and machine learning innovation, tackling both the technical and ethical challenges of data utilization.
|
---|