Abstract : | Η παρούσα μελέτη εξετάζει την δημιουργία χρήσιμων προγνωστικών μοντέλων, τα οποία θα διεξάγονται πριν από έναν αγώνα μπάσκετ. Συγκεκριμένα, δημιουργήσαμε προγνωστικά μοντέλα για το ελληνικό Πρωτάθλημα Μπάσκετ, Liga ACB, Euroleague και Eurocup.Αρχικά, αναλύονται τα βασικά στατιστικά στοιχεία, οι βασικοί δείκτες απόδοσης και τα προηγμένα στατιστικά στοιχεία των παικτών για το μπάσκετ. Όσον αφορά τα προηγμένα στατιστικά στοιχεία των παικτών είναι αναγκαία η χρήση δεδομένων λεπτό προς λεπτό (play-by-play) μέσα στο παιχνίδι. Ωστόσο, στην συγκεκριμένη μελέτη δεν διαθέταμε τα απαραίτητα δεδομένα για αυτά τα στατιστικά. Ξεπερνώντας, λοιπόν, το ζήτημα που προέκυψε με την δημιουργία αυτών των στατιστικών, προσεγγίστηκαν με την χρήση των τελικών δεδομένων του παιχνιδιού.Στην συνέχεια, γνωρίζοντας ότι τα συστήματα κατάταξης των ομάδων διαδραματίζουν καθοριστικό ρόλο στις προβλέψεις των αγώνων πραγματοποιείται ανάλυση στα συστήματα κατάταξης, όπως το Elo, το pagerank και το pi-rating. Ειδικότερα, το pi-rating σύστημα αναπτύσσεται δυναμικά σε αθροιστικές ενημερώσεις και παρέχει δύο βαθμολογίες, μία εντός και μια εκτός έδρας. Η δημιουργία του συγκεκριμένου συστήματος είναι ιδιαίτερα χρήσιμη, καθώς στις περισσότερες αθλητικές ομάδες εμφανίζονται διαφορές στην απόδοση για τα εντός και εκτός έδρας παιχνίδια. Έχει παρατηρηθεί ότι οι ομάδες στην έδρα τους αποδίδουν καλύτερα, λόγω του οικείου περιβάλλοντος και του υποστηρικτικού κοινού.Επίσης, για την πρόβλεψη του νικητή του εκάστοτε αγώνα, δημιουργούνται χαρακτηριστικά από ιστορικά στατιστικά μεταξύ των ομάδων, στατιστικά των ομάδων γενικά και από τις βαθμολογίες των συστημάτων κατάταξης. Η τρέχουσα φόρμα των ομάδων λαμβάνεται υπόψιν αυξάνοντας τα χαρακτηριστικά με στατιστικά και βαθμολογίες των συστημάτων κατάταξης για τους τελευταίους 10 αγώνες. Επιπλέον, δημιουργούνται χαρακτηριστικά των στατιστικών του κάθε τουρνουά. Λόγω του ότι κάθε τουρνουά έχει διαφορετική δομή, γίνεται εκπαίδευση σε ξεχωριστά μοντέλα. Για τους σκοπούς της διατριβής χρησιμοποιείται η λογιστική παλινδρόμηση (logistic regression), ο στοχαστικός αλγόριθμος απότομης καθόδου (stochastic gradient descent) , τα τυχαία δάση (random forest), η διαβαθμιζόμενη ενδυνάμωση (gradient boosting) και η ακραία διαβαθμιζόμενη ενδυνάμωση (xgboost) για το αποτέλεσμα του αγώνα και το Μπευζιανό Lasso για την διαφορά πόντων και για το όριο του Under/Over.Επιπρόσθετα, διεξάχθηκε ανεπιτυχώς η προσπάθεια υπέρβασης των προηγούμενων μοντέλων, με τους παίκτες ως χαρακτηριστικά του νέου μοντέλου. Κάθε παίκτης παριστάνεται από ένα διάνυσμα που περιλαμβάνει και τα προηγμένα στατιστικά για τους παίκτες. Τέλος, κατανοώντας την χρησιμότητα μιας αυτόματης συνάρτησης για τις προβλέψεις των αποτελεσμάτων των αγώνων, τον νικητή του τουρνουά, την διαφορά πόντων και το Under / Over, δημιουργήθηκε συνάρτηση απαιτώντας τα ιστορικά δεδομένα, τους αγώνες πρόβλεψης, το όνομα του τουρνουά και την ημερομηνία υλοποίησης. The aim of this thesis is to build useful prediction models for pre-game in the Greek Basket League,Liga ACB, Euroleague and Eurocup.Firstly, we analyze basic statistics,key performance indicators and advance players statistics for basketball.For advance players statistics properly we need play-by-play data.Although,in our project we did not have the necessary data for these kind of statistics. We surpass this problem with approximation of these stats with final game data.Secondly, we know that rating systems of teams play a crucial role in match predictions,so we analyze rating systems ,like Elo,pagerank and pi-rating.Especially, pi-rating system is developed dynamically in cumulative updates and provides two ratings,one for home and one for away matches.The creation of this system is very useful because in most of sport teams show differences in performance for home and away games because at home they perform better, because of familiar environment and supportive crowd.Afterward,in order to predict the winner of match we create features from historical statistics between teams,statistics of teams generally and for values of ratings systems.Taking in account the current form of teams,we increase feature with statistics and values of ratings systems for the last 10 matches.Moreover, we create features of tournament statistics.Due to each tournament has a different structure , we train a separate models. For the purposes of thesis we used logistic regression,stochastic gradient descent, random forest,gradient boosting and xgboost for match result and Bayesian Lasso for points spread and for betting line of under/over.In addition, we attempted unsuccessfully to beat the previous models with players as features in new model.Each player was represented by performance vector including advance players statistics.Finally,understanding the usefulness of automate function with output predictions for matches outcome,tournament winner,points spread and Under/Over. In need to create this function require historical data,matches, tournament name and the implementation date.
|
---|