Λογότυπο αποθετηρίου
 

A comparative analysis of traditional and modern supervised learning methods for predicting football player salaries

Μικρογραφία εικόνας

Ημερομηνία

2025-03-31

Συγγραφείς

Βούργαλης, Στέφανος
Vourgalis, Stefanos

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέπων

Διαθέσιμο από

Περίληψη

Αυτή η διπλωματική εργασία συγκρίνει παραδοσιακές και σύγχρονες μεθόδους εποπτευόμενης μηχανικής μάθησης για την πρόβλεψη των μισθών ποδοσφαιριστών. Χρησιμοποιώντας ένα σύνολο δεδομένων που περιλαμβάνει 1.864 παίκτες από τα πέντε κορυφαία ευρωπαϊκά πρωταθλήματα κατά τη διάρκεια τριών αγωνιστικών περιόδων (2018–2021), αναλύθηκαν τέσσερα μοντέλα: Linear Mixed Effects (LME), Random Forest (RF), eXtreme Gradient Boosting (XGBoost), and Deep Neural Networks (DNN). Τα μοντέλα αξιολογήθηκαν με βάση την προγνωστική τους ακρίβεια και την καλή προσαρμογή τους στα δεδομένα. Τα αποτελέσματα έδειξαν ότι το μοντέλο Random Forest υπερείχε των υπολοίπων, επιτυγχάνοντας το χαμηλότερο Root Mean Squared Forecast Error – RMSFE και τις υψηλότερες τιμές R² και προσαρμοσμένου R², καθιστώντας το την πιο αποτελεσματική προσέγγιση για την πρόβλεψη μισθών. Η ανάλυση σημαντικότητας χαρακτηριστικών αποκάλυψε ότι επιθετικά στατιστικά, όπως τα γκολ και τα σουτ στον στόχο, είχαν μεγαλύτερη επίδραση στους μισθούς σε σχέση με τις αμυντικές ενέργειες. Μια ανάλυση διαστημάτων εμπιστοσύνης 90%, βασισμένη στο καλύτερο μοντέλο, ταξινόμησε τους παίκτες ως υποαμειβόμενους, δίκαια αμειβόμενους ή υπεραμειβόμενους. Τα ευρήματα αυτά αναδεικνύουν την αξία της μηχανικής μάθησης στην αξιολόγηση των μισθολογικών δομών στο επαγγελματικό ποδόσφαιρο, προσφέροντας χρήσιμες πληροφορίες για συλλόγους και αναλυτές. Μελλοντικές έρευνες μπορούν να επεκτείνουν αυτή τη μελέτη ενσωματώνοντας επιπλέον χαρακτηριστικά, διευρύνοντας τα σύνολα δεδομένων και βελτιώνοντας τις τεχνικές μοντελοποίησης, προκειμένου να ενισχυθεί η προγνωστική απόδοση.
This thesis compares traditional and modern supervised learning methods to predict football player salaries. Using a dataset of 1,864 players from the top five European leagues over three seasons (2018–2021), four models were analyzed: Linear Mixed Effects (LME), Random Forest (RF), eXtreme Gradient Boosting (XGBoost), and Deep Neural Networks (DNN). The models were evaluated based on predictive accuracy and goodness of fit. Results show that Random Forest outperformed the other models, achieving the lowest Root Mean Squared Forecast Error (RMSFE) and the highest R2 and Adjusted R2, making it the most effective approach for salary prediction. Feature importance analysis revealed that offensive metrics such as goals and shots on target had a stronger impact on salaries than defensive actions. A 90% confidence interval analysis using the best-performing model classified players as underpaid, normal(fairly) paid, or overpaid. These findings highlight the value of machine learning in assessing salary structures in professional football, offering insights for clubs and analysts. Future research can extend this work by incorporating additional features, expanding datasets, and refining modeling techniques to improve predictive performance.

Περιγραφή

Λέξεις-κλειδιά

Supervised learning, Salary prediction, Football analytics, Εποπτευόμενη μάθηση, Πρόβλεψη μισθού, Ανάλυση ποδοσφαίρου

Παραπομπή