Μεταπτυχιακές Εργασίες
Μόνιμο URI για αυτήν τη συλλογήhttps://pyxida.aueb.gr/handle/123456789/15
Περιήγηση
Πρόσφατες Υποβολές
Τεκμήριο Risk classification based on severity and frequency models(2026-05-06) Kouveli, Maria-Eleni; Κουβέλη, Μαρία-Ελένη; Chasiotis, Vasileios; Tzougas, George; Karlis, DimitriosΗ ταξινόμηση κινδύνου αποτελεί βασική πτυχή στις γενικές ασφαλίσεις (non-life insurance), καθώς επιτρέπει στις ασφαλιστικές εταιρείες να προσαρμόζουν τα ασφάλιστρα με βάση το προφίλ κινδύνου κάθε ασφαλισμένου. Στο πλαίσιο αυτό, η διαφοροποίηση αυτή είναι σημαντική, όχι μόνο για τη διασφάλιση της δικαιοσύνης μεταξύ των ασφαλισμένων, αλλά και για τον περιορισμό της αντίστροφης επιλογής (adverse selection) και τη διατήρηση της χρηματοοικονομικής σταθερότητας των ασφαλιστικών χαρτοφυλακίων. Η παρούσα διπλωματική εξετάζει την ταξινόμηση κινδύνου μέσω της από κοινού μοντελοποίησης της συχνότητας ζημιών και της σοβαρότητας ζημιών, με ιδιαίτερη έμφαση στο ρόλο τους στον υπολογισμό ασφαλίστρων και στα συστήματα εμπειρικής τιμολόγησης (experience rating) Αρχικά, η μελέτη επισκοπεί τα βασικά στατιστικά μοντέλα για τη συχνότητα ζημιών, όπως τα μοντέλα Poisson και αρνητικής διωνυμικής κατανομής (negative binomial). Παράλληλα, εξετάζει πιο ευέλικτες κατανομές για τη μοντελοποίηση της σοβαρότητας ζημιών, όπως οι κατανομές gamma, Pareto και η γενικευμένη βήτα δευτέρου είδους (generalized beta of the second kind (GB2)). Επιπλέον, η εκτίμηση των μοντέλων και η αξιολόγηση της καλής προσαρμογής τους (goodness-of-fit) συζητούνται στο πλαίσιο παλινδρόμησης, το οποίο είναι κατάλληλο για τα χαρακτηριστικά των ασφαλιστικών δεδομένων. Στη συνέχεια, η προσέγγιση μοντελοποίησης συχνότητας-σοβαρότητας εφαρμόζεται στον υπολογισμό των καθαρών ασφαλίστρων (pure premiums) και στη σύνδεσή τους με την εμπειρική τιμολόγηση μέσω του συστήματος Bonus-Malus. Για να καταδειχθεί η πρακτική σημασία της μεθοδολογίας, πραγματοποιείται εμπειρική εφαρμογή χρησιμοποιώντας δεδομένα ασφάλισης αυτοκινήτων από την Ισπανία για την περίοδο 2016-2019. Tα αποτελέσματα δείχνουν ότι πιο ευέλικτα μοντέλα συχνότητας και σοβαρότητας, οδηγούν σε καλύτερη διαφοροποίηση κινδύνου και καλύτερη προσαρμογή στα παρατηρούμενα δεδομένα. Συγκεκριμένα, αναδεικνύουν τη σημασία της ενσωμάτωσης της ετερογένειας και των κατανομών των ζημιών με βαριές ουρές (heavy-tailed distributions) στην τιμολόγηση ασφαλίστρων. Τέλος, οι επιπτώσεις στην τιμολόγηση παρουσιάζονται μέσω αντιπροσωπευτικών προφίλ κινδύνου, συνδέοντας τις προβλέψεις τόσο της συχνότητας, όσο και της σοβαρότητας με τα προκύπτοντα καθαρά ασφάλιστρα βάσει μοντέλου.Τεκμήριο Forecasting macroeconomic series using advanced econometric models(2026-03-10) Ntaflos, Evangelos; Ντάφλος, Ευάγγελος; Besbeas, Panagiotis; Chasiotis, Vasileios; Vrontos, IoannisThis thesis examines the use of advanced econometric models for forecasting macroeconomic time series. The analysis focuses on the modelling and prediction of key macroeconomic variables by applying time series methods and modern econometric techniques. The main objective is to evaluate the forecasting performance of different models and compare their accuracy using appropriate statistical criteria. The results highlight the importance of model selection, proper data treatment, and the assessment of uncertainty in macroeconomic forecasting. The thesis contributes to the understanding of how advanced econometric methods can be applied to economic forecasting problems and emphasizes their usefulness in decision-making under economic uncertainty.Τεκμήριο Βέλτιστα σχήματα αντασφάλισης για την αντιστάθμιση κινδύνου ασφαλιστικών εταιρειών υπό τη σκοπιά των κυρτών μέτρων κινδύνου(2026-04-27) Μπακούρος, Διονύσιος; Bakouros, Dionysios; Γιαννακόπουλος, Αθανάσιος; Ζυμπίδης, Αλέξανδρος; Παπαγιάννης, ΓεώργιοςΣτην παρούσα εργασία εξετάζεται η διαχείριση του ασφαλιστικού κινδύνου υπό το πρίσμα των κυρτών μέτρων κινδύνου, με έμφαση στη σχέση μεταξύ επιπέδου κεφαλαιοποίησης, αντασφαλιστικής κάλυψης και πιθανότητας χρεωκοπίας μιας ασφαλιστικής επιχείρησης. Με αφετηρία ένα σύνολο δεδομένων που αποτελείται από μεμονωμένες ζημιές, το ύψος τους και τη χρονική στιγμή εμφάνισής τους, αναπτύσσεται ένα στοχαστικό υπόδειγμα για την περιγραφή της συχνότητας και της σφοδρότητας των ζημιών. Ιδιαίτερη έμφαση δίνεται στη συμπεριφορά των ακραίων ζημιών και στην επίδρασή τους στα αποτελέσματα της ανάλυσης. Η συνολική κατανομή των ετήσιων ζημιών προκύπτει μέσω προσομοίωσης Monte Carlo, ενώ τα αρχικά αποθέματα προσδιορίζονται με βάση τρία εναλλακτικά επίπεδα αποστροφής κινδύνου, με την εφαρμογή των μέτρων Value-at-Risk, Expected Shortfall και Entropic Value-at-Risk επάνω στις προσομοιωμένες ζημιές. Στη συνέχεια, αξιολογείται η πιθανότητα χρεωκοπίας της επιχείρησης σε ορίζοντα πενταετίας, τόσο χωρίς αντασφάλιση όσο και υπό διαφορετικά αντασφαλιστικά σχήματα. Τα αποτελέσματα δείχνουν ότι η αύξηση του επιπέδου κεφαλαιοποίησης οδηγεί σε σημαντική μείωση της πιθανότητας χρεωκοπίας, ενώ η αναλογική αντασφάλιση συμβάλλει αποτελεσματικά στον περιορισμό της μεταβλητότητας των ζημιών. Αντίθετα, η μη αναλογική αντασφάλιση τύπου Excess-of-Loss εμφανίζει περιορισμένη αποτελεσματικότητα, καθώς με την ύπαρξη ορίου κάλυψης εξαιρείται το ακραίο τμήμα της κατανομής. Ο συνδυασμός των δύο σχημάτων οδηγεί σε οριακή περαιτέρω βελτίωση, ενώ η σύμβαση Stop-Loss δύναται να εξαλείψει πλήρως την πιθανότητα χρεωκοπίας, υπό το δεδομένο επίπεδο εσόδων. Τέλος, αναδεικνύεται ότι η συμπεριφορά των κυρτών μέτρων κινδύνου επηρεάζε- ται καθοριστικά από τη δομή της δεξιάς ουράς της κατανομής ζημιών, γεγονός που καθιστά κρίσιμη την ορθή μοντελοποίηση των ακραίων τιμών. Συνολικά, η επιλογή επιπέδου κεφαλαιοποίησης και αντασφαλιστικής στρατηγικής προκύπτει ως αποτέλεσμα συμβιβασμού μεταξύ φερεγγυότητας και οικονομικής αποδοτικότητας.Τεκμήριο Στατιστική ανάλυση των αυτοάνοσων νοσημάτων(2026-03-26) Λαμπάκη, Λυδία; Lampaki, Lydia; Πεντελή, Ξανθή; Θωμαδάκης, Χρήστος; Δεμίρης, ΝικόλαοςΤα αυτοάνοσα νοσήματα κατέχουν μια εξόχως σημαντική θέση στη δημόσια υγεία λόγω των μεταβολών της συχνότητας εμφάνισής τους ανά τα χρόνια στους πληθυσμούς. Σκοπός της παρούσας μελέτης είναι η διερεύνηση έξι ευρέως γνωστών αυτοάνοσων νοσημάτων, σε έξι ευρωπαϊκές χώρες για την περίοδο 1990 – 2021, με χρήση δεδομένων του Global Burden of Disease. Μελετήθηκε ο επιπολασμός και η επίπτωση των νοσημάτων εκφρασμένα ως ρυθμός (rate) ανά 100.000 άτομα πληθυσμού, με διαστρωμάτωση ανά χώρα, φύλο και ηλικιακή ομάδα. Η εξέταση των χρονικών τάσεων και μεταβολών διερευνήθηκε με γραμμικά μοντέλα ενώ σε περιπτώσεις όπου παραβιαζόταν η γραμμικότητα χρησιμοποιήθηκαν γενικευμένα αθροιστικά μοντέλα (GAM). Τα αποτελέσματα εμφάνισαν κάποιες διαφοροποιήσεις τόσο μεταξύ των χωρών όσο και μεταξύ φύλων και ηλικιών. Η ανάλυση αυτή υπογραμμίζει την σημαντικότητα της προσεκτικής ερμηνείας των επιδημιολογικών τάσεων και της κατάλληλης στατιστικής προσέγγισης στην αποτύπωση της χρονικής εξέλιξης των νοσημάτων. Η μελέτη βοηθά στην κατανόηση των συγκριτικών και διαχρονικών τάσεων των αυτοάνοσων νοσημάτων στον ευρωπαϊκό χώρο.Τεκμήριο Το πλαίσιο ΔΠΧΑ 17 στη διαχείριση κινδύνου(2026-03-19) Μαρίνης, Χρήστος; Ζυμπίδης, Αλέξανδρος; Παπαγιάννης, Γεώργιος; Γιανακόπουλος, ΑθανάσιοςΤο Διεθνές Πρότυπο Χρηματοοικονομικής Αναφοράς 17 (ΔΠΧΑ 17) αποτελεί μια ριζική αλλαγή στη λογιστική αποτύπωση των ασφαλιστηρίων συμβολαίων, αντικαθιστώντας το ΔΠΧΑ 4 από το 2023. Βασικός στόχος του ΔΠΧΑ 17 είναι η ενίσχυση της συγκρισιμότητας και της διαφάνειας, καθώς και η καλύτερη κατανόηση των κινδύνων και της μελλοντικής κερδοφορίας των ασφαλιστικών εταιρειών. Η παρούσα εργασία εξετάζει πώς το νέο πρότυπο εντάσσεται στη διαχείριση κινδύνων των ασφαλιστικών οργανισμών, με έμφαση στις βασικές αρχές του ΔΠΧΑ 17, στις διαφορές του από το προηγούμενο καθεστώς και στις συνέργειες με το εποπτικό πλαίσιο Φερεγγυότητα II. Ιδιαίτερη αναφορά γίνεται στη λογιστική αντιμετώπιση των αντασφαλιστικών συμβολαίων που κατέχονται και στον τρόπο με τον οποίο η εφαρμογή του προτύπου επηρεάζει τη λήψη αποφάσεων, τους δείκτες απόδοσης και τη συνολική διαχείριση κινδύνου. Κεντρικός άξονας της εργασίας αποτελεί η ανάπτυξη ενός εκπαιδευτικού εργαλείου σε Python, το οποίο συνδέει την επιμέτρηση υπό ΔΠΧΑ 17 με τη διαχείριση κινδύνου, την παραγωγή δεικτών απόδοσης (KPIs) και την υποστήριξη της λήψης αποφάσεων. Μέσω υπολογισμών και αναλύσεων ευαισθησίας, ο χρήστης μπορεί να δοκιμάζει εναλλακτικές παραδοχές και σενάρια, να παρακολουθεί άμεσα την επίδραση στα αποτελέσματα και στους δείκτες και να καταλήγει σε συγκεντρωτική εικόνα μέσω dashboard, με τρόπο διαδραστικό, επαναλήψιμο και εκπαιδευτικά στοχευμένο, γεφυρώνοντας τη θεωρητική προσέγγιση του προτύπου με την πρακτική εφαρμογή και ερμηνεία των αποτελεσμάτων.Τεκμήριο Machine learning-based return forecasting in mean-variance portfolio construction(2026-03-12) Oikonomidis, Georgios; Οικονομίδης, Γεώργιος; Baltas, Ioannis; Vakeroudis, Stavros; Yannacopoulos, AthanasiosThis thesis investigates whether machine learning-based return forecast contain meaningful information from economically perspective, when employed within a portfolio optimization framework. The process adopts a fully multivariate setting, jointly model the return dynamics of ten most traded U.S. assets over the period 2018-2025. The forecasting layer includes reservoir computing architectures (Echo State Networks) and deep residual neural networks, allowing a comparison between lightweight and complex nonlinear models. The predicted returns are used as inputs in a rolling Markowitz optimization scheme and evaluated against standard benchmarks, including the optimization- based Minimum-Variance portfolio, as well as simple heuristic allocation rules (Equal-Weight and Inverse-Volatility) serving as practical reference strategies. Both predictive accuracy and economic performance are assessed in empirical analysis, focusing on allocation patterns and risk-adjusted returns under realistic constraints. The results indicate that ML-driven forecasts can provide meaningful improvements in portfolio allocation efficiency. Notably, lightweight reservoir computing models demonstrate robust and stable behavior despite the noisy financial data environment and limited predictability of asset returns. More complex architecture offers limited but not consistently dominant improvements. Overall, the findings suggest that the economic value of machine learning in portfolio management depends less on architectural complexity and more on the forecasting signals into risk-aware optimization frameworks.Τεκμήριο Μαρκοβιανές διαδικασίες λήψης αποφάσεων(2026-03-11) Πολυχρονόπουλος, Παναγιώτης; Δημητράκος, Θεοδόσιος; Βακερούδης, Σταύρος; Κυριακίδης, ΕπαμεινώνδαςΣτην παρούσα διπλωματική εργασία επιχειρήθηκε η παρουσίαση των στοχαστικών διαδικασιών και των αλυσίδων Markov με έμφαση στη λήψη αποφάσεων. Συγκεκριμένα παρουσιάζονται αναλυτικά θεματικές περιοχές όπως ο Γραμμικός προγραμματισμός και βέλτιστες πολιτικές, ο Αλγόριθμος βελτίωσης πολιτικής για την εύρεση βέλτιστων πολιτικών και το κριτήριο αποπληθωρισμένου κόστους. Επιπλέον παρουσιάζονται εφαρμογές Μαρκοβιανών διαδικασιών λήψης αποφάσεων σε διάφορες περιοχές όπως η επιχειρησιακή έρευνα, η τεχνητή νοημοσύνη & η μηχανική μάθηση, ο έλεγχος συστημάτων & ρομποτική, η υγειονομική περίθαλψη, τα χρηματοοικονομικά και οικονομία, τα παιχνίδια και προσομοιώσεις και η διοίκηση μεταφορών & λογιστική υποστήριξη. Τέλος, παρατίθενται τα συμπεράσματα της εργασίας.Τεκμήριο Computational approaches for Bayesian inference in copula based hierarchical models: an application to anti-doping(2026-02-11) Vyltanioti, Pigi-Eva; Βυλτανιώτη, Πηγή-Εύα; Deliu, Nina; Karlis, Dimitris; Liseo, Brunero; Ntzoufras, IoannisAnti-doping organizations invest a lot on doping control in order to protect sport competitions. On 2009, the Athlete Biological Passport (ABP) complemented this mission worldwide as it is used to monitor athlete’s individual profiles over time. It is implemented through a Bayesian framework, called ADAPTIVE, which determines individual reference ranges beyond which a measurement may signal potential doping. Doping detection increasingly relies on longitudinal biomarker monitoring, yet most current statistical tools analyze biomarkers marginally and ignore their dependence structure. This creates a methodological gap, as doping often alters multivariate patterns rather than individual values. Copula models provide a principled way to separate marginal behavior from joint dependence, making them well suited for detecting multivariate deviations. This thesis aims to develop and evaluate a Bayesian copula-mixture framework for modelling longitudinal hematological biomarkers within the context of the Athlete Biological Passport. The central research question is how different Bayesian estimation strategies affect the recovery of marginal parameters and dependence structure. The proposed methodology, full MCMC, combined flexible mixture models for marginal distributions with a survival Clayton copula to capture upper-tail dependence, a feature particularly relevant for detecting coordinated biomarker elevations. Two estimation strategies are implemented and compared, a Bayesian-IFM scheme and a full Bayesian MCMC algorithm, and extensive simulation studies are con ducted to assess identifiability, bias, RMSE, posterior uncertainty and and predictive performance under each approach. Results show that the full MCMC method improves the recovery of the copula parameter and better captures tail dependence, while the joint sampling approach offers greater numerical stability and more precise marginal estimates. The comparison highlights clear trade-offs between computational efficiency, dependence estimation accuracy and uncertainty quantification, providing practical guidance for Bayesian dependence modeling in anti-doping applications.Τεκμήριο Κατανόηση της καταναλωτικής συμπεριφοράς μέσω παραγοντικής ανάλυσης(2025-12-19) Σίμου, Αικατερίνη; Πεντελή, Ξανθή; Ψαράκης, Στυλιανός; Παπαγεωργίου, ΙουλίαΗ καταναλωτική συμπεριφορά αποτελεί ένα σύνθετο φαινόμενο που επηρεάζεται από κοινωνικούς, δημογραφικούς και αγοραστικούς παράγοντες. Η ανάλυση τέτοιων δεδομένων απαιτεί μεθόδους ικανές να αποκαλύψουν τις λανθάνουσες δομές που δεν είναι άμεσα παρατηρήσιμες. Στην παρούσα διπλωματική εργασία εφαρμόζεται η Διερευνητική Παραγοντική Ανάλυση (EFA) και η Επιβεβαιωτική Παραγοντική Ανάλυση (CFA) σε πραγματικά δεδομένα καταναλωτών, προερχόμενα από εταιρική καμπάνια μάρκετινγκ δημοσιευμένη στην πλατφόρμα Kaggle. Τα δεδομένα περιλαμβάνουν δημογραφικές μεταβλητές, δαπάνες σε κατηγορίες προϊόντων, χρήση φυσικών και ψηφιακών καναλιών αγορών και δείκτες ψηφιακής αλληλεπίδρασης. Η Διερευνητική Παραγοντική Ανάλυση (EFA) αποκάλυψε δύο σταθερούς παράγοντες και έναν τρίτο με χαμηλότερη συνοχή, οι οποίοι σχετίζονται με την αγοραστική ένταση, την ποικιλία προϊόντων και τη χρήση ψηφιακών καναλιών αντίστοιχα. Η Επιβεβαιωτική Παραγοντική Ανάλυση (CFA) χρησιμοποιήθηκε για την αξιολόγηση της προτεινόμενης δομής, επιβεβαιώνοντας ικανοποιητική προσαρμογή σε βασικούς δείκτες καταλληλότητας. Τα αποτελέσματα αναδεικνύουν ότι η παραγοντική ανάλυση προσφέρει μια συνεκτική προσέγγιση για την κατανόηση των καταναλωτικών μοτίβων και μπορεί να αποτελέσει σημαντικό εργαλείο στη διαμόρφωση στοχευμένων στρατηγικών μάρκετινγκ.Τεκμήριο Time series analysis with deep learning methods(2025-10-22) Χροναίος, Ιωάννης; Chronaios, Ioannis; Yannacopoulos, Athanasios; Tsekrekos, Andrianos; Georgiou, Kyriakos ChristopherΗ παρούσα διπλωματική εργασία εξερευνά την ανάλυση χρονοσειρών με τη χρήση μεθόδων βαθιάς μάθησης. Μοντέλα όπως τα επαναλαμβανόμενα νευρωνικά δίκτυα εφαρμόζονται για την αποτύπωση σύνθετων χρονικών προτύπων και τη βελτίωση της απόδοσης των προβλέψεων σε σύγκριση με τις παραδοσιακές προσεγγίσεις. Η μελέτη αναδεικνύει τη δυναμική των μοντέλων βαθιάς μάθησης στη διαχείριση ποικίλων προβλημάτων χρονοσειρών. Έπειτα από μια σύντομη βιβλιογραφική επισκόπηση τόσο της ανάλυσης χρονοσειρών όσο και της βαθιάς μάθησης και της σημασίας τους για την πρόβλεψη, η εργασία επικεντρώνεται στη μεθοδολογία που ακολουθήθηκε για την αντιμετώπιση των εξεταζόμενων προβλημάτων πρόβλεψης. Τέλος, εξετάζει την εφαρμογή και τον πειραματισμό τόσο σε προσομοιωμένα δεδομένα όσο και σε πραγματικά δεδομένα, προτού καταλήξει σε βασικά ευρήματα και συμπεράσματα. Για τη διασφάλιση της αναπαραγωγιμότητας, όλες οι υλοποιήσεις κώδικα που αναπτύχθηκαν στο πλαίσιο της παρούσας εργασίας είναι διαθέσιμες στο GitHub στον παρακάτω σύνδεσμο: https://github.com/iochronaios/thesis-notebook/blob/main/MSc_thesis_code_final_version.ipynbΤεκμήριο Topics of conformal prediction in time series(2025-10-23) Kokkinis, Dimitrios; Κοκκίνης, Δημήτριος; Karlis, Dimitris; Ntzoufras, Ioannis; Kechagias, StefanosConformal Prediction is an uncertainty quantification framework for Statistical and Machine Learning problems. In particular, Conformal Prediction (CP) offers a distribution-free approach, which typically requires data exchangeability. Under this assumption, the joint probability of observations is not affected by changing their sequence. However, the reliance on exchangeability limits its direct application to Time Series data. This thesis reviews three recent adaptations of CP designed for non-exchangeable data, namely Ensemble Batch Prediction Intervals (EnbPI), Aggregate Conformal Inference (AgACI), and Weighted Conformal Prediction. After presenting these methodologies in detail, we evaluate their performance through simulation studies. In the first study, we apply them to non-linear data with varying degrees of correlation, while in the second study, we examine their behavior under distribution drift. Our findings suggest that EnbPI is the best option for weakly correlated data, since it can provide valid and informative prediction intervals, while simultaneously being easy to implement. For strongly correlated data on the other hand, AgACI is the preferred choice, due to its validity and low variance of its coverage distribution. Finally, in the distribution drift case, Weighted CP stands out from the rest, because its implementation is straight-forward and its results, coverage and efficiency wise, are less affected by the distribution drifts.Τεκμήριο Polling misses: causes and treatment(2025-09-18) Barali, Foteini; Μπαραλή, Φωτεινή; Psarakis, Stelios; Chasiotis, Vasileios; Papageorgiou, IouliaThis thesis explores the recurring phenomenon of polling inaccuracies, or "polling misses," in election forecasting, examining the systemic, methodological, and behavioral factors contributing to these failures. It begins by establishing the historical context and evolution of election polling, highlighting its critical role in modern democratic processes, media narratives, and campaign strategies. Despite significant advancements in survey technology—from telephone-based to digital and multi-mode platforms—recent elections such as the 2016 U.S. presidential election, the Brexit referendum, and the 2018 Quebec provincial vote have demonstrated notable inaccuracies that challenge the reliability and legitimacy of polls. Central to the analysis is an investigation of the structural vulnerabilities inherent in polling methods, including sampling errors, nonresponse bias, coverage gaps, and inadequate weighting procedures. It underscores the challenges posed by rapidly evolving communication habits and demographic shifts, illustrating how these factors systematically exclude or misrepresent key voter segments, thus skewing poll results. Additionally, the thesis identifies psychological phenomena such as social desirability bias, the "shy voter" effect, late-decider volatility, and the "bandwagon effect," emphasizing their roles in distorting polling accuracy. Through detailed case studies—including notable polling failures in the United States, the United Kingdom, Quebec, and Australia—the thesis demonstrates that polling misses rarely result from isolated errors but rather from a complex interplay of methodological shortcomings and dynamic voter behaviors. It critically assesses contemporary methodological innovations designed to mitigate these errors, such as Multilevel Regression with Post-stratification (MRP), hybrid sampling designs, adaptive fieldwork, and real-time weighting adjustments. The research ultimately advocates for a dual approach: continual methodological refinement paired with heightened transparency and ethical standards. By integrating rigorous statistical techniques with an understanding of voter psychology and behavior, pollsters can better navigate the complexities of modern electorates. This thesis contributes valuable insights and recommendations aimed at enhancing the accuracy, credibility, and utility of public opinion polling, ensuring it remains a vital and trusted component of democratic discourse and decision-making.Τεκμήριο The application of machine learning algorithms in the study of out-of-wedlock fertility patterns in Thrace, Greece(2025-09-29) Kontogiannis, Georgios; Κοντογιάννης, Γεώργιος; Psarakis, Stelios; Panousis, Konstantinos P.; Ntzoufras, IoannisThis MSc thesis (Applied Statistics, Athens University of Economics and Business) examines out-of-wedlock fertility in Thrace, Greece (2000–2018) using population-level anonymized birth microdata from the Hellenic Statistical Authority (ELSTAT) (N = 67,706 births). The study combines exploratory demographic analysis with predictive modelling to investigate the socio-demographic, cultural, and geographic determinants of extramarital births in a culturally diverse and socioeconomically disadvantaged region. Descriptive findings reveal substantial spatial variation across municipalities and a strong concentration of nonmarital births among adolescents, low-educated mothers, and Roma populations, alongside an emerging pattern among older, highly educated women, indicating heterogeneous pathways into nonmarital family formation. Methodologically, the thesis integrates logistic regression with ensemble machine learning approaches (XGBoost, Random Forests, LightGBM, and CatBoost) to capture nonlinear relationships and complex interactions. Model performance is assessed under pronounced class imbalance using precision, recall, F1-score, balanced accuracy, ROC-AUC, and AUPRC, with classification thresholds optimized for substantive relevance. Model interpretability is addressed through feature importance measures and SHAP values, allowing for transparent comparison between traditional statistical models and machine learning techniques. Overall, the results support a dual interpretation of extramarital fertility in Thrace: as both a manifestation of social disadvantage and inequality and a reflection of changing family behaviors consistent with Second Demographic Transition perspectives. The thesis highlights the need for targeted social policies supporting vulnerable mothers and ensuring equal legal and social protection for children regardless of parental marital status.Τεκμήριο From accuracy to profitability: evaluating credit rating models’ economic impact(2025-09-30) Papadopoulos, Nikolaos A.; Παπαδόπουλος, Νικόλαος Α.; Ntzoufras, Ioannis; Giudici, Paolo; Karlis, DimitriosThis study focuses on the economic value of various predictive accuracy metrics in credit rating models. The general logic of the banks is that they rely on regression-based approaches, while more recently, it’s common to see the use of machine learning techniques to assess borrower risk. However, the question of whether investing in higher-performing models or not generates countable financial benefits remains underexplored, and most importantly, underanalysed. This paper addresses this gap by examining how more enhanced discriminatory power in models affects not only profitability, but also the lending quality and regulatory capital requirements of the banks. The analysis identifies three primary transmission channels, that are explained thoroughly in the main text, through which the models’ accuracy can influence different economic outcomes given that: (1) improved loan origination reduces defaults and enhances margins by better identifying low-risk borrowers; (2) stronger models mitigate adverse selection, a very vast sector in banking, helping retain creditworthy clients who might be lost to competitors otherwise; and (3) more accurate models, so more higher value metrics and, by extension, risk assessments can reduce Risk-Weighted Assets (RWA), freeing regulatory capital. In order to address this request in a more direct way, we are using simulation-based methods, generating synthetic loan portfolios (50,000 loans at 3% default and 10,000 prospects at 10% default) and evaluating models across Area Under the Receiver Operating Characteristic curve (AUROC) bands from 65% gradually increasing to 90%. In order to do that, based on references in the bibliography, we are confident to use different logistic distributions that were applied to mimic predictive scores, and they were calibrated to ensure consistent risk levels. In the end, the results show that defaults among top-approved loans decline sharply with better accuracy models - from nearly 6% at AUROC with 65% accuracy to less than 1% at AUROC with 90%. Proceeding to the adverse selection analysis, we can confirm that stronger models attract and retain more profitable clients. The capital impact is smaller but meaningful, with average RWA reductions of around 8% between lower-and higher-accuracy scenarios. Lastly, the profitability that was measured from the previous analysis gives further value to the model improvements. By applying a realistic arithmetical example, on a €3.5 billion retail portfolio, each 5-point AUROC percentage increase can generate approximately €0.8-1 million in addition to the annual profit, with relative gains of 5-12% depending on competitive dynamics. These effects can compound over time as new loans are added annually, while the findings show us that even with incremental improvements in model discrimination can yield and generate significant economic returns, reinforcing the strategic importance of continuous model enhancement. Banks, regulators, and model developers at the same time can use these insights to firstly justify investments, then set performance benchmarks, and also better understand the link between model validation metrics and real-world financial outcomes.Τεκμήριο Electricity market modelling and Gaussian process regression(2025-12-22) Mourikis, Georgios; Μουρίκης, Γεώργιος; Yannacopoulos, Athanasios; Vakeroudis, Stavros; Papaioannou, PanagiotisElectricity price modelling constitutes an essential challenge for energy trading and risk management, relevant to different types of energy market participants – producers, retailers, and traders. The interest in going beyond point-forecasting approaches to estimate confidence intervals around the point price can apply to the needs of most participants. This thesis reviews the scientific literature to describe the different methods used for electricity price forecasting, the growing interest in probabilistic approaches, and the positioning of Gaussian Processes among them. Considering relevant literature that encourages transition from the traditional benchmark autoregressive and linear models to other algorithms - and among them – to the Gaussian Process Regression, we explore the application of the algorithm to the estimation of daily electricity prices using the Matern covariance function and assessing the accuracy and reliability of the point and interval prediction for the estimation of daily electricity prices. Our focus is on the electricity markets of Germany, France, and Italy, for which we will also explore the application of our predictions against the daily electricity futures.Τεκμήριο Functional data analysis: an application to FTIR spectroscopy and parchment artificial ageing(2025-10-17) Maliaritis, Efthymios; Μαλιαρίτης, Ευθύμιος; Malea, Aikaterini; Chasiotis, Vasileios; Karlis, DimitriosParchment, a fundamental medium of documentary cultural heritage, requires reliable tools for assessing degradation under environmental stress. In this study, 48 new goat-hide parchment samples were artificially aged under controlled exposure to relative humidity, nitrogen dioxide (NO₂), sulfur dioxide (SO₂), ageing duration, and order of gas exposure. Fourier Transform Infrared (FTIR) spectroscopy was employed to monitor molecular-level changes in collagen. Departing from traditional peak-based analyses, a Functional Data Analysis (FDA) framework was adopted, treating FTIR spectra as continuous curves. Functional regression models were applied to evaluate the effects of environmental factors across the full spectral domain. Scalar-on-function regression revealed statistically significant differences between artificial aged and control samples, while function-on-scalar regression identified interpretable and significant effects—particularly in Amide II, lipid, and carbonate bands—associated with humidity, SO₂, and NO₂ exposure. These results align with prior peak-based findings while extending interpretability through smooth coefficient functions and bootstrap-based simultaneous confidence bands. FDA thus provides a robust framework for interpreting complex spectral changes and enhances the analytical power of FTIR spectroscopy in heritage science, particularly when integrated with structured experimental design and nonparametric inference.Τεκμήριο Directional predictability of U.S. stock market returns using econometric and machine learning techniques(2025-12-19) Anagnostopoulos, Vasileios; Αναγνωστόπουλος, Βασίλειος; Chasiotis, Vasileios; Panousis, Konstantinos; Vrontos, IoannisThis thesis investigates the directional predictability of U.S. stock market returns using both econometric and machine learning models. The analysis compares traditional binary response models, such as Logit and Probit, with regularized regressions (Ridge, LASSO, and Elastic Net) and tree-based ensemble methods, including Bagging, Random Forest, Gradient Boosting, and Extreme Gradient Boosting. Using monthly data and a large set of financial and macroeconomic predictors, the models are estimated in an expanding window framework that mimics real-time forecasting. Model performance is evaluated out of sample using classification metrics, with particular focus on the Area Under the Curve (AUC). The results show that forecasting the direction of monthly stock returns remains a difficult task. Machine learning methods provide some improvement in predictive accuracy compared to traditional econometric models, mainly during crisis periods such as the COVID-19 episode, when relationships between predictors and returns temporarily strengthen. However, in stable market conditions, all models exhibit limited predictive power, consistent with the efficient market hypothesis. Overall, the findings highlight the episodic nature of return predictability and the value of flexible, data-driven methods for detecting changes in market dynamics.Τεκμήριο Composite endpoints in clinical trials(2025-09-22) Kanellakopoulou, Adamantia; Kanellakopoulou, Adamantia; Demiris, Nikolaos; Thomadakis, Christos; Karlis, DimitriosClinical trials represent a fundamental process in the evaluation of the efficacy of new therapies. However, it is important to note that, in many clinical trials, a single primary endpoint is often insufficient to fully capture the therapeutic effect, particularly when events are rare, necessitate extended follow-up, or only reflect a fraction of the treatment's clinically meaningful impact, often resulting in increased trial costs. Consequently, composite endpoints are commonly used, combining two or more clinically relevant outcomes into a single measure. The individual outcomes, known as components of the composite endpoint, represent the possible events associated with the disease and its treatment. This approach provides several advantages, most notably an increased number of observed events and therefore an increase in the power of the clinical trial. However, composite endpoints also introduce considerable challenges, particularly at the design stage, since the target sample size is often subject to a high level of uncertainty, while at the same time the interpretation of the observed effect for the composite endpoint does not necessarily reflect the effects of the individual components. This thesis initiates with a review of the broader context of clinical trial methodology, with particular emphasis on the pivotal role of the primary endpoint in guiding trial design and interpretation, while also aiming to improve efficiency and feasibility in practice. The subsequent introduction of composite endpoints as a methodological development can increase statistical efficiency, reduce required sample sizes, and provide a more complete evaluation of treatment effects. Specifically, the two principal types of composite endpoints—binary composite endpoints and time-to-first-event endpoints are examined, discussing their construction and interpretation, along with the main challenges that arise in practice. In order to facilitate the connection between theoretical concepts and their practical applications, the thesis employs illustrative examples from the fields of cardiology and oncology. These two disciplines have come to play a significant role in clinical practice and regulatory frameworks, owing to the use of composite endpoints. The presented examples show how key design parameters, such as event probabilities, hazard structures, and correlation assumptions, affect sample size determination, statistical power, and the reliability of trial conclusions. Finally, simulation studies are employed to evaluate the performance of the proposed methods under realistic clinical conditions. Overall, the analysis presents the main methodological contributions of the thesis while also discussing the practical and interpretational challenges associated with the use of composite endpoints. By combining theoretical developments, applied examples, and simulation studies, it provides a clear perspective on the design of contemporary clinical trials and illustrates how composite endpoints, when carefully defined and appropriately modelled, can be both statistically reliable and clinically meaningful.Τεκμήριο Solving partial integro-differential equations using physics-informed neural networks(2025-10-16) Georgakopoulos, Nikolaos; Γεωργακόπουλος, Νικόλαος; Vakeroudis, Stavros; Yannacopoulos, Athanasios; Georgiou, Kyriakos ChristopherThis thesis investigates the application of Physics-Informed Neural Networks (PINNs) to solve partial integro-differential equations (PIDEs) arising in financial mathematics, with particular focus on credit risk modeling. Traditional numerical methods for solving PIDEs, such as finite difference schemes, face computational challenges when dealing with jump-diffusion processes, especially in real-time applications requiring rapid probability-of-default calculations. This work develops a comprehensive framework for approximating solutions to PIDEs governing Lévy-driven Ornstein–Uhlenbeck processes using deep neural networks. The methodology incorporates the governing equations directly into the neural network training process through a composite loss function that enforces the PIDE residual, boundary conditions, and terminal conditions simultaneously. The experimental validation demonstrates that PINNs successfully learn accurate approximations of probability-of-default functions for jump-diffusion models. Comparison with Monte Carlo simulations validates that the solution learned by the PINN is indeed realistic. Most significantly, the trained PINN achieves computational speedups of over 3,600 times compared to traditional finite difference methods, reducing inference time from approximately 98 seconds to 0.027 seconds while maintaining comparable accuracy. The results establish PINNs as a viable alternative to conventional numerical methods for solving financial PIDEs, particularly in scenarios requiring rapid evaluation across varying market conditions. The computational efficiency gains make sophisticated jump-diffusion models practically viable for real-time risk management applications, including algorithmic trading, portfolio optimization, and regulatory stress testing. This work contributes to the growing intersection of physics-informed machine learning and quantitative finance, demonstrating how modern deep learning techniques can address fundamental computational challenges in modeling dynamic systems governed by physical laws.Τεκμήριο Comparative study on analyzing univariate count time series data(2025-11-18) Spanou, Varvara; Σπανού, Βαρβάρα; Besbeas, Panagiotis; Chasiotis, Vasilios; Vrontos, IoannisThis thesis investigates statistical forecasting models for daily counts of incoming customer conversations, collected from a UK-based fintech company. The data exhibit strong overdispersion and positive autocorrelation, with evident weekly, biweekly, and roughly monthly seasonal patterns. The initial exploratory analysis indicated that the Poisson distribution could not account for the overdispersion present in the data, whereas the Negative Binomial distribution provided a better fit. Diagnostic checks using generalized linear models (GLMs) and generalized additive models (GAMs) revealed nonlinear effects of temporal lags, suggesting that models restricted to linear autoregression—such as integer-valued autoregressive (INAR) processes—were inadequate. In practice, only the INAR(1) model achieved a satisfactory fit, as the first lag exhibited an almost linear relationship, while higher-order lags could not be appropriately incorporated. To overcome these limitations, the thesis adopts a Negative Binomial state-space model (SSM). The fitted model confirmed the importance of lags 1, 7, 16, and 21, consistent with the autocorrelation structure identified in the time-series analysis. The study concludes that Negative Binomial state-space models provide a flexible framework for discrete-valued time series exhibiting overdispersion, outperforming traditional Poisson and INAR approaches in this context. Future research could extend the model by introducing dynamic latent states such as stochastic trends or seasonal components, explore Hidden Markov structures to allow switching between states, or compare its predictive performance with machine-learning methods such as random forests and neural networks. Overall, these approaches appear promising for improving operational forecasts of incoming communication volumes within customer-service operations in fintech firms and related service industries.
