Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Predictive modeling of match results - teams' ranking

Εναλλακτικός τίτλος :	Προβλεπτικά μοντέλα αποτελεσμάτων αγώνων

Δημιουργός :	Karagiannaki, Charikleia Καραγιαννάκη, Χαρίκλεια

Συντελεστής :	Ntzoufras, Ioannis (Επιβλέπων καθηγητής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Σημείωση :	In cooperation with: OPAP

Φυσική περιγραφή :	82 p.

Γλώσσα :	el

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7052

Περίληψη :	A bookmaker's profitability depends, among various factors, on accurate estimation of fair probabilities. In order, thus, to enrich OPAP's existing toolset of probability estimation, this project aims to accurately predict match outcomes via appropriate statistics techniques and/or machine learning algorithms. To this end, the project will go through all steps of the CRoss-Industry Standard Process Data Mining (CRISP-DM) methodology (i.e. Business Understanding, Data Understanding, Data preparation, Modeling, Evaluation and Deployment) to answer the key business question of predicting probabilities for forthcoming matches': i. winners and ii. exact scores. Still, the main focus will be on identification of appropriate modelling techniques, comparative evaluation of alternative techniques and deriving models. In addition, the project will address substantiated model selection on the basis of appropriate statistical criteria of recent match results (i.e. academic standards), business sense and complexity of maintenance, update and replicability. The project ideally needs to programmatically automate the model selection process and make provision for maintenance, update and generation of forthcoming matches' predictions. Last but not least, the project will effectively communicate key modelling insights and interpret deriving results. The key deliverable of this project will be a holistic, small-scale prototype application that performs all tasks from data collection and preparation to generation of forthcoming matches' predictions in a standardized specified delivery format. Although this application will focus on basketball, it will remain extendable and replicable to other sports.In the first part of this project, some descriptive statistics and plots have been included so we can take some information of the dataset and to understand which variables affect the win or the loss of a team, the characteristics of the teams that win in contrast of these that lose and which variables are correlated with the variable “score”. In addition to that some others variables have been created, such as Home Dummy, won or lost dummy and the differences of final points, points in each quarter, two, three and free throws percentages, offensive and defensive rebounds, steals, turnovers, blocks, blocks against the other team, fouls, fouls received from the other team, assists and in the performance index, based on bibliography so they can be included in modelling.In the second part, two models are being founded so we can predict the outcome of games. The first model predicts the probability of a team to win a game. We will use only the teams that played in their field and we will predict the probability to win p and the probability to win the opponent team is 1-p. We will use logistic regression. The next model is going to predict the score of the team in an upcoming match. Log linear regression will be applied. Η κερδοφορία ενός πράκτορα στοιχημάτων εξαρτάται, σε συνδυασμό με ποικίλους παράγοντες, από την ακριβή εκτίμηση πιθανοτήτων. Με σκοπό, λοιπόν, τον εμπλουτισμό των εργαλείων του ΟΠΑΠ, αυτή η εργασία στοχεύει να εκτιμήσει με ακρίβεια την κατάληξη αγώνων μέσω κατάλληλων στατιστικών τεχνικών ή/και αλγορίθμων μηχανικής μάθησης. Με αυτό το σκοπό, αυτή η εργασία θα χρησιμοποιήσει όλα τα στάδια της μεθοδολογίας CRoss-Industry Standard Process Data Mining (CRISP-DM) (δηλαδή Επιχειρηματική κατανόηση, κατανόηση δεδομένων, ετοιμασία δεδομένων, μοντέλα, εκτίμηση και ανάπτυξη) για να απαντήσει στην ερώτηση κλειδί των επιχειρήσεων, τις προβλεπόμενες πιθανότητες για επερχόμενους αγώνες: i. τους νικητές και ii. ακριβή σκορ. Ακόμα, η εργασία θα επικεντρωθεί σε κατάλληλες τεχνικές μοντελοποίησης, συγκριτική εκτίμηση εναλλακτικών τεχνικών αποκομίζοντας μοντέλα. Επιπλέον, η εργασία θα αντιμετωπίσει την τεκμηριωμένη επιλογή μοντέλου με βάση τα κατάλληλα στατιστικά κριτήρια πρόσφατων αποτελεσμάτων αγώνων, επιχειρησιακής λογικής και πολυπλοκότητα της συντήρησης, ενημέρωση και αναπαραγωγή.Η εργασία ιδανικά χρειάζεται να αυτοματοποιεί τη διαδικασία επιλογής μοντέλου και να προβλέπει τη συντήρηση, αναβάθμιση και δημιουργία προβλέψεων επερχόμενων αγώνων. Τέλος, η εργασία θα επικοινωνεί αποτελεσματικά βασικές γνώσεις μοντελοποίησης και θα ερμηνεύουν αποτελέσματα που προκύπτουν. Το βασικό παραδοτέο αυτού του έργου θα είναι μια ολιστική, μικρής κλίμακας πρωτότυπη εφαρμογή που εκτελεί όλα τα καθήκοντα από τη συλλογή δεδομένων και την προετοιμασία μέχρι τη δημιουργία των προβλέψεων των προσεχών αγώνων σε τυποποιημένη μορφή παράδοσης. Αν και αυτή η εφαρμογή θα επικεντρωθεί στο μπάσκετ, μπορεί να χρησιμοποιηθεί και σε άλλα αθλήματα.Στο πρώτο μέρος της εργασίας παρατίθενται κάποια περιγραφικά μέτρα αλλά και διαγράμματα έτσι ώστε να μπορέσουμε να διεξάγουμε κάποια συμπεράσματα για το σετ δεδομένων μας, όπως ποιες είναι οι μεταβλητές που χαρακτηρίζουν τη νικήτρια και τη χαμένη ομάδα, τα χαρακτηριστικά της νικήτριας ομάδας σε σχέση με την ηττημένη και ποιες μεταβλητές είναι συσχετισμένες μεταξύ τους. Επιπλέον, κάποιες νέες μεταβλητές δημιουργήθηκαν, όπως είναι οι ψευδομεταβλητές για το αν είναι οικοδέσποινα μια ομάδα, αν νίκησε ή έχασε και οι διαφορές των πόντων συνολικά, των πόντων σε κάθε περίοδο ξεχωριστά, των επιθετικών και αμυντικών ριμπάουντ, των κλεψιμάτων, των φάουλ, των ασσιστ και του δείκτη performance index με βάση τη βιβλιογραφία έτσι ώστε να χρησιμοποιηθούν και στα μοντέλα.Στο δεύτερο μέρος 2 μοντέλα δημιουργήθηκαν για να προβλέψουν το αποτέλεσμα ενός αγώνα. Το πρώτο προβλέπει αν μια ομάδα θα νικήσει έναν αγώνα και θα προβλέψουμε την πιθανότητα p να νικήσει η οικοδέσποινα ομάδα χρησιμοποιώντας λογιστική παλινδρόμηση. Το επόμενο μοντέλο προβλέπει το σκορ των ομάδων σε έναν επερχόμενο αγώνα χρησιμοποιώντας λογαριθμημένη κανονική παλινδρόμηση.

Περίληψη :

A bookmaker's profitability depends, among various factors, on accurate estimation of fair probabilities. In order, thus, to enrich OPAP's existing toolset of probability estimation, this project aims to accurately predict match outcomes via appropriate statistics techniques and/or machine learning algorithms. To this end, the project will go through all steps of the CRoss-Industry Standard Process Data Mining (CRISP-DM) methodology (i.e. Business Understanding, Data Understanding, Data preparation, Modeling, Evaluation and Deployment) to answer the key business question of predicting probabilities for forthcoming matches': i. winners and ii. exact scores. Still, the main focus will be on identification of appropriate modelling techniques, comparative evaluation of alternative techniques and deriving models. In addition, the project will address substantiated model selection on the basis of appropriate statistical criteria of recent match results (i.e. academic standards), business sense and complexity of maintenance, update and replicability. The project ideally needs to programmatically automate the model selection process and make provision for maintenance, update and generation of forthcoming matches' predictions. Last but not least, the project will effectively communicate key modelling insights and interpret deriving results. The key deliverable of this project will be a holistic, small-scale prototype application that performs all tasks from data collection and preparation to generation of forthcoming matches' predictions in a standardized specified delivery format. Although this application will focus on basketball, it will remain extendable and replicable to other sports.In the first part of this project, some descriptive statistics and plots have been included so we can take some information of the dataset and to understand which variables affect the win or the loss of a team, the characteristics of the teams that win in contrast of these that lose and which variables are correlated with the variable “score”. In addition to that some others variables have been created, such as Home Dummy, won or lost dummy and the differences of final points, points in each quarter, two, three and free throws percentages, offensive and defensive rebounds, steals, turnovers, blocks, blocks against the other team, fouls, fouls received from the other team, assists and in the performance index, based on bibliography so they can be included in modelling.In the second part, two models are being founded so we can predict the outcome of games. The first model predicts the probability of a team to win a game. We will use only the teams that played in their field and we will predict the probability to win p and the probability to win the opponent team is 1-p. We will use logistic regression. The next model is going to predict the score of the team in an upcoming match. Log linear regression will be applied.
Η κερδοφορία ενός πράκτορα στοιχημάτων εξαρτάται, σε συνδυασμό με ποικίλους παράγοντες, από την ακριβή εκτίμηση πιθανοτήτων. Με σκοπό, λοιπόν, τον εμπλουτισμό των εργαλείων του ΟΠΑΠ, αυτή η εργασία στοχεύει να εκτιμήσει με ακρίβεια την κατάληξη αγώνων μέσω κατάλληλων στατιστικών τεχνικών ή/και αλγορίθμων μηχανικής μάθησης. Με αυτό το σκοπό, αυτή η εργασία θα χρησιμοποιήσει όλα τα στάδια της μεθοδολογίας CRoss-Industry Standard Process Data Mining (CRISP-DM) (δηλαδή Επιχειρηματική κατανόηση, κατανόηση δεδομένων, ετοιμασία δεδομένων, μοντέλα, εκτίμηση και ανάπτυξη) για να απαντήσει στην ερώτηση κλειδί των επιχειρήσεων, τις προβλεπόμενες πιθανότητες για επερχόμενους αγώνες: i. τους νικητές και ii. ακριβή σκορ. Ακόμα, η εργασία θα επικεντρωθεί σε κατάλληλες τεχνικές μοντελοποίησης, συγκριτική εκτίμηση εναλλακτικών τεχνικών αποκομίζοντας μοντέλα. Επιπλέον, η εργασία θα αντιμετωπίσει την τεκμηριωμένη επιλογή μοντέλου με βάση τα κατάλληλα στατιστικά κριτήρια πρόσφατων αποτελεσμάτων αγώνων, επιχειρησιακής λογικής και πολυπλοκότητα της συντήρησης, ενημέρωση και αναπαραγωγή.Η εργασία ιδανικά χρειάζεται να αυτοματοποιεί τη διαδικασία επιλογής μοντέλου και να προβλέπει τη συντήρηση, αναβάθμιση και δημιουργία προβλέψεων επερχόμενων αγώνων. Τέλος, η εργασία θα επικοινωνεί αποτελεσματικά βασικές γνώσεις μοντελοποίησης και θα ερμηνεύουν αποτελέσματα που προκύπτουν. Το βασικό παραδοτέο αυτού του έργου θα είναι μια ολιστική, μικρής κλίμακας πρωτότυπη εφαρμογή που εκτελεί όλα τα καθήκοντα από τη συλλογή δεδομένων και την προετοιμασία μέχρι τη δημιουργία των προβλέψεων των προσεχών αγώνων σε τυποποιημένη μορφή παράδοσης. Αν και αυτή η εφαρμογή θα επικεντρωθεί στο μπάσκετ, μπορεί να χρησιμοποιηθεί και σε άλλα αθλήματα.Στο πρώτο μέρος της εργασίας παρατίθενται κάποια περιγραφικά μέτρα αλλά και διαγράμματα έτσι ώστε να μπορέσουμε να διεξάγουμε κάποια συμπεράσματα για το σετ δεδομένων μας, όπως ποιες είναι οι μεταβλητές που χαρακτηρίζουν τη νικήτρια και τη χαμένη ομάδα, τα χαρακτηριστικά της νικήτριας ομάδας σε σχέση με την ηττημένη και ποιες μεταβλητές είναι συσχετισμένες μεταξύ τους. Επιπλέον, κάποιες νέες μεταβλητές δημιουργήθηκαν, όπως είναι οι ψευδομεταβλητές για το αν είναι οικοδέσποινα μια ομάδα, αν νίκησε ή έχασε και οι διαφορές των πόντων συνολικά, των πόντων σε κάθε περίοδο ξεχωριστά, των επιθετικών και αμυντικών ριμπάουντ, των κλεψιμάτων, των φάουλ, των ασσιστ και του δείκτη performance index με βάση τη βιβλιογραφία έτσι ώστε να χρησιμοποιηθούν και στα μοντέλα.Στο δεύτερο μέρος 2 μοντέλα δημιουργήθηκαν για να προβλέψουν το αποτέλεσμα ενός αγώνα. Το πρώτο προβλέπει αν μια ομάδα θα νικήσει έναν αγώνα και θα προβλέψουμε την πιθανότητα p να νικήσει η οικοδέσποινα ομάδα χρησιμοποιώντας λογιστική παλινδρόμηση. Το επόμενο μοντέλο προβλέπει το σκορ των ομάδων σε έναν επερχόμενο αγώνα χρησιμοποιώντας λογαριθμημένη κανονική παλινδρόμηση.

Λέξη κλειδί :	Predictive modeling Basketball Logistic regression Προβλεπτικά μοντέλα Αγώνες μπάσκετ Λογιστική παλινδρόμηση

Διαθέσιμο από :	2019-06-06 22:34:26

Ημερομηνία έκδοσης :	2019

Ημερομηνία κατάθεσης :	2019-06-06 22:34:26

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Karagiannaki_2019.pdf

Τύπος: application/pdf

Είσοδος