Machine learning framework for expected goals inference: bridging statistical modeling and causal understadning in football analytics
Ημερομηνία
2026-01-23
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων / ουσα
Διαθέσιμο από
Περίληψη
Football analytics has evolved from descriptive statistics to sophisticated machine learning models, yet much of the existing research remains limited to isolated predictive or exploratory approaches. This study proposes an integrated analytical framework that combines supervised, unsupervised, and causal inference methodologies to advance the modeling of Expected Goals (xG) and deepen the understanding of shot quality and decision-making in football. Supervised models, including logistic regression, decision tree, random forests, gradient boosting, xgboost and neural network were employed to predict goal probabilities, while unsupervised methods such as Principal Component Analysis and K-Means clustering uncovered latent shot structures and tactical typologies. Isolation Forest identified rare or anomalous events, enhancing sensitivity to high-value but infrequent actions, and a Counterfactual Autoencoder introduced a causal layer that simulated “what-if” scenarios, quantifying how controlled changes in shot context, could affect the expected outcome. Experimental results demonstrate that ensemble models improve discriminative power, while unsupervised analyses reveal interpretable clusters that align with tactical behaviors on the pitch. The counterfactual component extends the framework beyond association, enabling causal insight into the determinants of chance creation. Collectively, these findings illustrate a progression from purely predictive modeling toward interpretable, context-aware, and prescriptive analytics. By bridging statistical accuracy with tactical relevance, this work contributes to the emerging paradigm of data-driven causal understanding in sports analytics, transforming raw performance data into actionable football intelligence.Η ανάλυση δεδομένων στο ποδόσφαιρο έχει μεταβεί από περιγραφικές στατιστικές σε σύνθετα μοντέλα μηχανικής μάθησης, αλλά η υπάρχουσα βιβλιογραφία συχνά παραμένει περιορισμένη αποσπασματικά προγνωστικές ή διερευνητικές προσεγγίσεις. Η παρούσα μελέτη προτείνει ένα ολοκληρωμένο πλαίσιο που συνδυάζει εποπτευόμενες, μη εποπτευόμενες τεχνικές και μεθόδους αιτιώδους συμπερασματολογίας, στοχεύοντας στη βελτίωση της μοντελοποίησης των αναμενόμενων γκολ (expected goals – xG) και στην εις βάθος κατανόηση της ποιότητας των τελικών προσπαθειών και της λήψης αποφάσεων. Εφαρμόστηκαν εποπτευόμενα μοντέλα (λογιστική παλινδρόμηση, δέντρα απόφασης, τυχαία δάση, μέθοδοι ενίσχυσης κλίσης και νευρωνικά δίκτυα) για την πρόβλεψη της πιθανότητας επίτευξης τέρματος. Οι μη εποπτευόμενες τεχνικές (ανάλυση κύριων συνιστωσών και K-Means) ανέδειξαν λανθάνουσες δομές και διακριτές τακτικές κατηγορίες. Ο αλγόριθμος Isolation Forest εντόπισε σπάνια ή ανώμαλα γεγονότα, ενισχύοντας την ευαισθησία σε ενέργειες υψηλής αξίας αλλά χαμηλής συχνότητας. Επιπλέον, ένας αντιπαραθετικός αυτοκωδικοποιητής προσομοίωσε «τι θα συνέβαινε αν» σενάρια, ποσοτικοποιώντας την επίδραση ελεγχόμενων μεταβολών στις συνθήκες εκτέλεσης της τελικής προσπάθειας στο αναμενόμενο αποτέλεσμα. Τα αποτελέσματα δείχνουν ότι τα μοντέλα συνόλου βελτιώνουν τη διακριτική ικανότητα, ενώ οι μη εποπτευόμενες αναλύσεις αποκαλύπτουν ερμηνεύσιμες συστάδες που ευθυγραμμίζονται με τακτικές συμπεριφορές στο γήπεδο. Η αντιπαραθετική ανάλυση υπερβαίνει τους συσχετισμούς, επιτρέποντας αιτιώδη διερεύνηση των παραγόντων δημιουργίας ευκαιριών. Συνολικά, η εργασία μετατοπίζει την ανάλυση από καθαρά προγνωστική προς ερμηνεύσιμη και καθοδηγητική, συμβάλλοντας στη διαμόρφωση αναδυόμενου επιστημονικού πλαισίου αιτιωδώς βασισμένης ανάλυσης στον χώρο της αθλητικής επιστήμης και μετασχηματίζοντας τα δεδομένα απόδοσης σε αξιοποιήσιμη γνώση.
Περιγραφή
Λέξεις-κλειδιά
Football analytics, Expected goals (xG), Supervised learning, Unsupervised learning, Counterfactual casual analysis, Ανάλυση δεδομένων στο ποδόσφαιρο, Αναμενόμενα γκολ (xG), Εποπτευόμενη μάθηση, Μη εποπτευόμενη μάθηση, Αντιπαραθετική αιτιώδης ανάλυση

