Περίληψη : | Η Διπλωματική εργασία αυτή έχει ως κύριο στόχο την ανάλυση συστάδων σε σύνολα δεδομένων ταξινόμησης με ελλιπείς παρατηρήσεις, που αφορούν τους ψηφοφόρους της Χρυσής Μπάλας για την περίοδο 2010 - 2015. Αρχικά, θα παρουσιάσουμε βασικές έννοιες που αφορούν τις κατηγορίες δεδομένων ταξινόμησης, την οπτικοποίηση και μοντελοποίηση τους. Στη συνέχεια εργαζόμαστε στο να διαχωρίσουμε τους ψηφοφόρους σε διακριτά σύνολα ανάλογα με την προτιμήσεις τους, για κάθε ένα από τα χρόνια της περιόδους την οποία μελετάμε. Αυτό το επιτυγχάνουμε μέσα από την παρουσίαση και την εφαρμογή τριών μεθόδων συσταδοποίησης των δεδομένων ταξινόμησης με ελλιπείς παρατηρήσεις, της FIFA. Αυτές οι μέθοδοι είναι η Μπευζιανή μέίξη των Plackett - Luce μοντέλων, ο αλγόριθμος K - medoids στον οποίο χρησιμοποιείται η απόσταση του Kendall σαν μέτρο απόστασης και ο αλγόριθμος Insertion Sorting Rank. Επίσης, ανακαλύπτουμε πιθανά πρότυπα συμπεριφοράς ψήφου μέσω περαιτέρω ανάλυσης στα αποτελέσματα των προαναφερθεισών μεθόδων, τα οποία συνδέουμε με εξωτερικούς παράγοντες, όπως η ήπειρος προέλευσης του ψηφοφόρου και η σχέση του με το ποδόσφαιρο (παίκτης, προπονητής, δημοσιογράφος), οι οποίοι μπορούν να επηρεάσουν την τελική προτίμηση ενός ψηφοφόρου. Η ανάλυση των προτύπων συμπεριφοράς ψήφου τα οποία προκύπτουν μας οδηγεί σε πολύ ενδιαφέροντα συμπεράσματα. The main purpose of this Thesis is the clustering of the voters of the FIFA Ballon d'Or partial ranking datasets, for the period 2010 - 2015. At first, we are going to present the fundamental notions in the context of ranking data and provide ways for visualizing and modeling partial ranking data. At next, we will work on our main goal which is to separate the voters in different groups according to their preferences, for each one of the years in the period under study. We achieve that by presenting and applying three clustering methods to the FIFA partial ranking datasets. These are the Bayesian mixture of Plackett - Luce models, the K - medoids algorithm with the Kendall's distance as distance metric and the Insertion Sorting Rank algorithm. Moreover, we are going to detect possible voting behavioral patterns, through further analysis on the results of the aforementioned clustering methods and we will connect them with extrinsic factors that could have affected the final preference of a voter, like the cοntinent from which a voter comes from and his relation with football (player, coach, journalist). The analysis of these voting behavioral patterns leads us in fascinating conclusions.
|
---|