Advanced modeling in sports analytics
Ημερομηνία
2026-02-04
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων / ουσα
Διαθέσιμο από
Περίληψη
This master’s thesis investigates the development, evaluation, and interpretation of advanced Expected Goals (xG) models in football, using event-level data and modern machine learning techniques. The main objective is to examine whether different methodological approaches, ranging from simple statistical models to more complex algorithmic methods, can provide reliable, well-calibrated, and interpretable probabilistic estimates of scoring probability.
The analysis is based on StatsBomb Open Data and includes all shots from the five major European leagues (England, Spain, Italy, Germany, and France) during the 2015/2016 season. The final dataset consists of more than 1,800 matches and tens of thousands of shots, enabling shot-level modeling of goal probability. The methodology follows a fully reproducible analytical pipeline, including data collection and cleaning, feature engineering, train–test splitting, model training, evaluation, probability calibration, and model interpretation. Logistic regression is used as a baseline model, while tree-based methods (decision trees and random forests) and boosting models (XGBoost) are also examined. Model performance is evaluated using metrics suitable for probabilistic prediction under strong class imbalance, such as the Area Under the ROC Curve (AUC) and the Brier score, rather than traditional classification metrics. Particular emphasis is placed on probability calibration, employing methods such as Platt scaling and isotonic regression. The results indicate that boosting models achieve superior discriminative performance compared to simpler approaches; however, they require careful calibration to ensure reliable probability estimates. Furthermore, the application of techniques such as the SHAP values enables both global and local interpretation of model predictions, highlighting the dominant role of spatial and contextual factors such as shot distance, angle, and shooting conditions. Overall, the thesis demonstrates that xG modeling is not merely a prediction task but a comprehensive methodological problem that requires the integration of appropriate data, evaluation strategies, calibration procedures, and interpretability tools. The findings underline the value of xG models for both academic research and practical football analysis, while also outlining future research directions including causal inference, phase-specific xG modeling, and the integration of richer data sources.Η παρούσα διπλωματική εργασία εξετάζει την ανάπτυξη, αξιολόγηση και ερμηνεία προηγμένων μοντέλων αναμενόμενων γκολ (Expected Goals – xG) στο ποδόσφαιρο, αξιοποιώντας event-level δεδομένα και σύγχρονες τεχνικές μηχανικής μάθησης. Στόχος της εργασίας είναι να διερευνήσει κατά πόσο διαφορετικές μεθοδολογικές προσεγγίσεις, από απλά στατιστικά μοντέλα έως πιο σύνθετες αλγοριθμικές τεχνικές, μπορούν να αποδώσουν αξιόπιστες, βαθμονομημένες και ερμηνεύσιμες πιθανοκρατικές εκτιμήσεις της πιθανότητας σκοραρίσματος. Η ανάλυση βασίζεται σε δεδομένα από το StatsBomb Open Data και περιλαμβάνει όλες τις τελικές προσπάθειες από τα πέντε κορυφαία ευρωπαϊκά πρωταθλήματα (Αγγλία, Ισπανία, Ιταλία, Γερμανία, Γαλλία) για τη σεζόν 2015/2016. Το τελικό δείγμα περιλαμβάνει περισσότερους από 1.800 αγώνες και δεκάδες χιλιάδες τελικές προσπάθειες, επιτρέποντας τη μοντελοποίηση της πιθανότητας σκοραρίσματος σε επίπεδο μεμονωμένου σουτ. Η μεθοδολογία οργανώνεται σε ένα πλήρες και αναπαραγώγιμο pipeline που περιλαμβάνει συλλογή και καθαρισμό δεδομένων, μηχανική χαρακτηριστικών, διαχωρισμό σε σύνολα εκπαίδευσης και ελέγχου, εκπαίδευση πολλαπλών μοντέλων, αξιολόγηση, βαθμονόμηση πιθανοτήτων και ερμηνεία των αποτελεσμάτων. Ως βασικό μοντέλο αναφοράς χρησιμοποιείται η λογιστική παλινδρόμηση, ενώ εξετάζονται επίσης δενδρικά μοντέλα (decision trees, random forests) και μοντέλα boosting (XGBoost). Η αξιολόγηση των μοντέλων πραγματοποιείται με έμφαση σε μετρικές κατάλληλες για πιθανοκρατικά προβλήματα με έντονη ανισορροπία κλάσεων, όπως το AUC και το Brier score, αποφεύγοντας παραδοσιακές μετρικές ταξινόμησης που δεν αποτυπώνουν επαρκώς την ποιότητα των πιθανοτήτων. Ιδιαίτερη έμφαση δίνεται στη διαδικασία βαθμονόμησης (calibration) των προβλέψεων μέσω μεθόδων όπως το Platt scaling και το isotonic regression. Τα αποτελέσματα δείχνουν ότι τα boosting μοντέλα επιτυγχάνουν υψηλότερη διακριτική ικανότητα σε σχέση με τα απλούστερα μοντέλα, ωστόσο απαιτούν προσεκτική βαθμονόμηση ώστε οι προβλεπόμενες πιθανότητες να είναι αξιόπιστες. Παράλληλα, η εφαρμογή τεχνικών όπως τα SHAP values, επιτρέπει την ερμηνεία των προβλέψεων τόσο σε συνολικό όσο και σε τοπικό επίπεδο, επιβεβαιώνοντας τη σημασία βασικών χωρικών και τακτικών παραγόντων όπως η απόσταση, η γωνία και οι συνθήκες εκτέλεσης.
Συνολικά, η εργασία αναδεικνύει ότι το xG modelling δεν αποτελεί απλώς ένα πρόβλημα πρόβλεψης, αλλά ένα σύνθετο μεθοδολογικό ζήτημα που απαιτεί συνδυασμό κατάλληλων δεδομένων, σωστής αξιολόγησης, βαθμονόμησης και ερμηνευσιμότητας. Τα ευρήματα υποστηρίζουν τη χρησιμότητα των xG μοντέλων τόσο σε ερευνητικό όσο και σε εφαρμοσμένο επίπεδο, ενώ προτείνουν μελλοντικές κατευθύνσεις που περιλαμβάνουν αιτιακή ανάλυση, ανάλυση ανά φάση παιχνιδιού και ενσωμάτωση πιο πλούσιων δεδομένων.
Περιγραφή
Λέξεις-κλειδιά
Sports analytics, Expected Goals (xG), Machine learning, Probability calibration, Αναμενόμενα γκολ (xG), Αθλητική ανάλυση δεδομένων, Μηχανική μάθηση, Βαθμονόμηση πιθανοτήτων

