Theodorakis, AngelosΘεοδωράκης, Άγγελος2025-07-302025-07-302025-07-02https://pyxida.aueb.gr/handle/123456789/12079https://doi.org/10.26219/heal.aueb.9365Η παρούσα διπλωματική εργασία εξετάζει βασικές παραδοχές στα μοντέλα ποδοσφαίρου βασισμένα στην κατανομή Poisson, εστιάζοντας ιδιαίτερα στο Overdispersion στο Αγγλικό Πρωτάθλημα της Premier League. Ο όρος Overdispersion αναφέρεται στην περίπτωση όπου η διακύμανση των αριθμών των τερμάτων είναι μεγαλύτερη από τον μέσο, και η εργασία διερευνά αν αυτό παρατηρείται στην Premier League. Η εργασία εξετάζει επίσης άλλες παραδοχές, όπως η υπερπληθώρα μηδενικών σκορ (αποτέλεσμα 0-0 ), πιθανές συσχετίσεις μεταξύ των σκορ των αντιπάλων ομάδων, καθώς και αν οι ικανότητες των ομάδων παραμένουν σταθερές ή εξελίσσονται με την πάροδο του χρόνου. Χρησιμοποιούνται διάφορες κατανομές, όπως Poisson, Negative Binomial, Inverse-Gaussian, Generalized Poisson και Conway-Maxwell Poisson, για να μοντελοποιηθεί το overdispersion. Οι κατανομές αξιολογούνται ως προς την προσαρμογή τους στα δεδομένα χρησιμοποιώντας κριτήρια όπως ο Δείκτης Πληροφορίας Akaike (AIC) και ο Δείκτης Πληροφορίας Bayesian (BIC). Τα αποτελέσματα δείχνουν ότι η κατανομή Poisson προσαρμόζεται καλά στα δεδομένα, όμως τείνει να υποεκτιμά τους αγώνες με μηδενικά τέρματα. Η κατανομή Negative Binomial έχει την καλύτερη προσαρμογή στα δεδομένα, ενώ η κατανομή Generalized Poisson κάνει και αυτή καλή προσαρμογή σε αντίθεση με τις κατανομές Inverse-Gaussian και Conway-Maxwell Poisson. Ωστόσο, η κακή προσαρμογή της κατανομής COM-Poisson ενδέχεται να οφείλεται στη χρήση method of moments για την εκτίμηση των παραμέτρων. Έπειτα, συγκρίνεται το overdispersion στους εντός και εκτός έδρας αγώνες ανά σεζόν και εξετάζεται η παρουσία του στις ομάδες της Premier League, σημειώνοντας διακυμάνσεις ανά σεζόν χωρίς όμως ξεκάθαρη τάση. Ορισμένες ομάδες, όπως η Newcastle και η West Ham, παρουσιάζουν σημαντικό overdispersion στους εκτός έδρας αγώνες, ενώ η Fulham εμφανίζει στους εντός έδρας αγώνες. Άλλες ομάδες, όπως η Huddersfield και η Wolves, παρουσιάζουν underdispersion. Στη συνέχεια ένα βασικό μοντέλο χρησιμοποιείται για κάθε μια από τις παραπάνω κατανομές, το οποίο περιλαμβάνει τις επιθετικές και αμυντικές ικανότητες κάθε ομάδας, τα τέρματα και το πλεονέκτημα έδρας ως παράγοντες. Μετά την προσαρμογή του μοντέλου Negative Binomial, το Dispersion Index ήταν για όλες τις σεζόν κοντά στη μονάδα, κάτι που υποδεικνύει ότι το μοντέλο εξήγησε την διασπορά. Εφαρμόζοντας επίσης μέθοδο bootstrap προκειμένου να συγκρίνουμε τις διαφορές των Deviance για τα μοντέλα Poisson και Negative Binomial, παρατηρούμε ότι δεν υπάρχουν σημαντικές ενδείξεις που να υποδεικνύουν ότι το μοντέλο Negative Binomial κάνει καλύτερη προσαρμογή. Ωστόσο, περαιτέρω αξιολόγηση με τα κριτήρια AIC και BIC έδειξε ότι, αν και το μοντέλο Poisson έχει καλή επίδοση, το μοντέλο Conway-Maxwell Poisson (COM-Poisson) προσφέρει καλύτερη προσαρμογή σε αρκετές σεζόν. Το underdispersion που παρατηρείται μετά την εφαρμογή του μοντέλου δείχνει ότι το αρχικό overdispersion εξηγήθηκε από το ίδιο το μοντέλο. Τέλος, η ενσωμάτωση των Τυχαίων Επιδράσεων στα μοντέλα, οι οποίες λαμβάνουν υπόψη τη μεταβλητότητα σε επίπεδο αγώνα, δεν βελτιώνει την προσαρμογή των μοντέλων Poisson, Negative Binomial και COM-Poisson, αλλά βελτιώνει την προσαρμογή του Generalized Poisson μοντέλου στις περισσότερες σεζόν. Συμπερασματικά, ενώ το μοντέλο Poisson παραμένει ένα αξιόπιστο εργαλείο για την ανάλυση των γκολ στην Premier League, το μοντέλο Conway-Maxwell-Poisson παρουσιάζει ακόμη καλύτερη προσαρμογή σε πολλές περιπτώσεις και δείχνει underdispersion μετά την προσαρμογή του μοντέλου, υποδηλώνοντας ότι η μεταβλητότητα που απομένει, είναι μικρότερη από αυτήν που θα υπέθετε το Poisson μοντέλο.This thesis examines critical assumptions in Poisson-based football models, particularly focusing on overdispersion in the English Premier League. Overdispersion refers to a situation where the variance in goal counts is higher than the mean, and the study investigates whether this is present in Premier League. The thesis also explores other assumptions, such as zero inflation (the occurrence of excessive 0-0 scores), potential correlations between the scores of opposing teams, and whether teams’ abilities remain constant or evolve over time. The analysis compares overdispersion across home and away matches and examines its presence across various teams. Several distributions, including Poisson, Negative Binomial, Inverse-Gaussian, Generalized Poisson, and Conway-Maxwell Poisson, are used to model overdispersion. The distributions are assessed for their fit to the data using criteria like Akaike Information Criterion (AIC) and Bayesian Information Criterion (BIC). The findings reveal that the Poisson distribution fits the data well, although it tends to underestimate matches with no goals. The Negative Binomial distribution proves to be the best fit for the data, effectively capturing overdispersion, while the Generalized Poisson distribution also offers a reasonable fit. In contrast, the Inverse-Gaussian and Conway-Maxwell Poisson distributions do not fit well. However, the poor fit of the COM-Poisson distribution may be attributed to the fact that we used approximate methods to estimate its parameters. The study also explores overdispersion over time, noting variations across different seasons without any clear trend. Some teams, such as Newcastle and West Ham, show significant overdispersion in away games, while Fulham shows it in home matches. Other teams, like Huddersfield and Wolves, display underdispersion, showing more consistent goal scoring patterns. A baseline model, which includes attacking and defensive strengths, goals scored, and home advantage as predictors, is then used for every of the above distributions. For the Negative Binomial model, the resulting Dispersion Index values were consistently very close to one across all seasons, indicating that the model effectively accounted for overdispersion and produced results consistent with equidispersion. A bootstrap method comparing Poisson and Negative Binomial models shows no significant evidence that the Negative Binomial model provides a better fit. Further evaluation with AIC and BIC shows that although the Poisson model performs competitively, the COM-Poisson model offers better fit in most seasons. The underdispersion seen after fitting the model shows that much of the initial overdispersion was explained by the model. Finally, incorporating random effects (which account for match-level variability) into the models does not improve the Poisson, Negative Binomial, or Conway-Maxwell models, but enhances the fit of the Generalized Poisson for most seasons. In conclusion, while the Poisson model remains a reliable tool for analyzing goal counts in the Premier League, the COM-Poisson model offers an even better fit in many cases and reveals underdispersion, indicating that the remaining variability is less than the Poisson model would assume.pages 115Attribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/OverdispersionUnderdispersionFootballPremier LeagueDraw InflationΥπερδιασποράΥποδιασποράΔιακύμανσηΠοδόσφαιροTesting for the assumptions of the Poisson-based football modelsΈλεγχος των υποθέσεων των μοντέλων Poisson στο ποδόσφαιροTextNtzoufras, Ioannis