Abstract : | The focus of this thesis is to estimate the number of team possessions in each Euroleague basketball game. To achieve that goal, we construct linear regression models based on the possession formula of Justin Kubatko, Dean Oliver, Kevin Pelton and Dan T. Rosenbaum (2007). The preferred possession model will be determined according to its fit to the data, prediction accuracy and ease of use. It is important for European basketball coaches and European basketball teams in general, to have a reliable formula that can accurately estimate the number of possessions in a game. As a result, we identify that the model which best fits our requirements, is the one that sums a team’s shooting attempts from the field, turnovers and a proportion of its free throw attempts, while subtracting its offensive rebounds, for the estimation of its possessions. The same exact equation is also being currently used in the NBA. The only difference is the percentage of the free throw attempts that ends a current possession, since we discover it to be slightly higher in our data compared to that of the NBA. Thereafter, we decide to implement the possession equation in order to construct indicators to evaluate the performance of the teams. The first indicator we get to construct is the Net Rating of the teams. Per possession indicators were firstly developed by John Hollinger and Dean Oliver and are being widely used by many basketball analysts around the world, mainly using NBA data. Dean Oliver, by utilizing NBA data, identified Four Factors that a team has to control offensively and defensively in order to be successful. We, in our turn, by applying a backwards stepwise regression analysis we identify that a model with three indicators, instead of the four which Oliver identified, fits better to the data while it can also explain a statistically significant part of the variation of the teams’ win percentage. These three indicators concern the net difference of offensive and defensive True Shooting percentage, Offensive Rebound percentage and Turnover percentage. However, having already estimated the Net Rating and having examined its relationship with the teams’ win percentage, we find out that not only it is a very capable indicator to explain and predict the final ranking of the teams, but it also fits slightly better to the data compared to the model with the three indicators. On the other hand, these three indicators have more value in performance interpretation of the teams, than the Net Rating. Finally, we reduce the team possessions to individual possessions for a short analysis of player performance. After determining the player who performed best in each of the top eight team that season, based on their total points scored, minutes played and games played, along with their score in PIR, we then construct per possession indicators in order to identify the player who performed the best overall in a regular season. Metrics like the individual Offensive and Defensive Rating, Floor percentage, Usage Rate, PIR and Win Shares, were taken into account. The final conclusion was that Nando De Colo and Luka Doncic were the best overall players of the 2018-19 regular season and that Luka Doncic deserved to be the MVP. The data set concerns the regular season and playoffs games of the 2017-18, 2018-19 and 2019-20 Euroleague seasons, gathered and analysed by the developers of the newstats website and Christos Marmarinos. The data contains all the play-by-play actions and the team statistics derived from each entry. In the team statistics the developers added the possessions that actually took place in the games, by counting them one-by-one from the play-by-play data. Lastly, our working tool will be the software environment of R programming language. Tο επίκεντρο αυτής της διατριβής είναι να εκτιμηθεί ο αριθμός των κατοχών μιας ομάδας σε κάθε παιχνίδι μπάσκετ της Ευρωλίγκας. Για την επίτευξη αυτού του στόχου, κατασκευάζουμε μοντέλα γραμμικής παλινδρόμησης με βάση τον τύπο κατοχής των Justin Kubatko, Dean Oliver, Kevin Pelton και Dan T. Rosenbaum (2007). Το προτιμώμενο μοντέλο κατοχής θα προσδιοριστεί ανάλογα με την προσαρμογή του στα δεδομένα, την ακρίβεια της πρόβλεψης και την ευκολία χρήσης.Είναι σημαντικό για τους Ευρωπαίους προπονητές μπάσκετ και τις Ευρωπαϊκές ομάδες μπάσκετ γενικά, να έχουν μια αξιόπιστη φόρμουλα που μπορεί να εκτιμήσει με ακρίβεια τον αριθμό των κατοχών σε ένα παιχνίδι. Ως αποτέλεσμα, αναγνωρίζουμε ότι το μοντέλο που ταιριάζει καλύτερα στις απαιτήσεις μας, είναι αυτό που αθροίζει τις εντός πεδιάς προσπάθειες μιας ομάδας, τα λάθη και ένα ποσοστό των προσπαθειών ελεύθερης βολής, αφαιρώντας τα επιθετικά ριμπάουντ, για την εκτίμηση των κατοχών της. Η ίδια ακριβώς εξίσωση χρησιμοποιείται επίσης στο NBA. Η μόνη διαφορά είναι το ποσοστό των προσπαθειών ελεύθερης βολής που τερματίζει μια τρέχουσα κατοχή, καθώς ανακαλύπτουμε ότι είναι ελαφρώς υψηλότερο στα δεδομένα μας σε σύγκριση με αυτό του NBA. Στη συνέχεια, αποφασίζουμε να θέσουμε σε εφαρμογή την εξίσωση κατοχής προκειμένου να κατασκευάσουμε δείκτες για την αξιολόγηση της απόδοσης των ομάδων. Ο πρώτος δείκτης που δημιουργούμε είναι η καθαρή βαθμολογία των ομάδων. Οι δείκτες ανά κατοχή αναπτύχθηκαν αρχικά από τους John Hollinger και Dean Oliver και χρησιμοποιούνται ευρέως από πολλούς αναλυτές μπάσκετ σε όλο τον κόσμο, κυρίως χρησιμοποιώντας δεδομένα NBA. Ο Dean Oliver, χρησιμοποιώντας δεδομένα NBA, εντόπισε τέσσερις παράγοντες που πρέπει να ελέγξει μια ομάδα επιθετικά και αμυντικά για να είναι επιτυχής. Εμείς, με τη σειρά μας, εφαρμόζοντας μια σταδιακή ανάλυση παλινδρόμησης αναγνωρίζουμε ότι ένα μοντέλο με τρεις δείκτες, αντί για τους τέσσερις που ο Oliver αναγνώρισε, ταιριάζει καλύτερα στα δεδομένα, ενώ μπορεί επίσης να εξηγήσει ένα στατιστικά σημαντικό μέρος της μεταβλητότητας του ποσοστού νίκης των ομάδων. Αυτοί οι τρεις δείκτες αφορούν τη καθαρή διαφορά του επιθετικού και αμυντικού ποσοστού αληθινού σουτ, ποσοστού επιθετικού ριμπάουντ και ποσοστού λαθών. Ωστόσο, έχοντας ήδη εκτιμήσει την καθαρή βαθμολογία και έχοντας εξετάσει τη σχέση της με το ποσοστό νίκης των ομάδων, ανακαλύπτουμε ότι όχι μόνο είναι ένας πολύ ικανός δείκτης για να εξηγήσουμε και να προβλέψουμε την τελική κατάταξη των ομάδων, αλλά επίσης ταιριάζει ελαφρώς καλύτερα στα δεδομένα σε σύγκριση με το μοντέλο με τους τρεις δείκτες. Από την άλλη πλευρά, αυτοί οι τρεις δείκτες έχουν μεγαλύτερη αξία στην ερμηνεία των επιδόσεων των ομάδων, από τη καθαρή βαθμολογία. Τέλος, ανάγουμε τις ομαδικές κατοχές σε ατομικές κατοχές για μια σύντομη ανάλυση της απόδοσης των παικτών. Αφού προσδιορίσαμε τον παίκτη που είχε την καλύτερη απόδοση σε κάθε μία από τις οκτώ πρώτες ομάδες εκείνης της σεζόν, βασισμένοι στους συνολικούς πόντους που είχε σημειώσει, τα λεπτά που έπαιξε και τα παιχνίδια που έπαιξε, μαζί με το σκορ τους στο PIR, στη συνέχεια κατασκευάζουμε δείκτες ανά κατοχή για να προσδιορίσουμε τον παίκτη που έπαιξε συνολικά καλύτερα σε μια κανονική σεζόν. Ελήφθησαν υπόψη μετρήσεις όπως η ατομική επιθετική και αμυντική βαθμολογία, το ποσοστό Floor, το ποσοστό χρήσης, το PIR και τα μερίδια νίκης. Το τελικό συμπέρασμα ήταν ότι ο Nando De Colo και ο Luka Doncic ήταν οι καλύτεροι συνολικά παίκτες της κανονικής σεζόν 2018-19 και πως ο Luka Doncic άξιζε να είναι ο MVP.Το σετ δεδομένων αφορά τα παιχνίδια της κανονικής περιόδου και των πλέι οφ των περιόδων 2017-18, 2018-19 και 2019-20 της Ευρωλίγκας, τα οποία συγκεντρώθηκαν και αναλύθηκαν από τους προγραμματιστές του ιστότοπου newstats και τον Χρήστο Μαρμαρινό. Τα δεδομένα περιέχουν όλες τις ενέργειες παιχνίδι ανά παιχνίδι και τα στατιστικά της ομάδας που προέρχονται από κάθε καταχώριση. Στα στατιστικά της ομάδας οι προγραμματιστές πρόσθεσαν τις κατοχές που πραγματικά έλαβαν χώρα στα παιχνίδια, μετρώντας τα ένα προς ένα από τα παιχνίδι ανά παιχνίδι δεδομένα. Τέλος, το εργαλείο εργασίας μας θα είναι το περιβάλλον λογισμικού της γλώσσας προγραμματισμού R.
|
---|