Συλλογές
Τίτλος Variable selection in clustering
Εναλλακτικός τίτλος Επιλογή μεταβλητών στην συσταδοποίηση
Δημιουργός Ζήκου, Παναγιώτα, Zikou, Panagiota
Συντελεστής Chatziantoniou, Damianos
Athens University of Economics and Business, Department of Management Science and Technology
Papastamoulis, Panagiotis
Karlis, Dimitrios
Τύπος Text
Φυσική περιγραφή 111p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11467
Περίληψη Clustering is a popular methodology with practical applications in various fields. However, it is widely argued that not all variables that are available in the dataset are equally valuable in identifying the underlying true cluster structure. Instead, only a subset of them is discriminant for the data cluster structure, while the rest of them constitute noise. This issue becomes even more apparent with the increased sizes that today’s world datasets have, due to the overall increase in data generation. To address this challenge, a variety of dimensionality reduction techniques have been introduced in the literature. This work specifically focuses on variable selection methods in K-Means clustering. More precisely, Heuristic Identification of Noisy Variables (HINoV), Variable Selection heuristic for K-Means clustering (VS-KM) and Sparse K-Means (SK-Means) are thoroughly analysed and then applied to simulated datasets, as well as a real-world-like dataset, to conduct a comparative study of their performance in two different scenarios: an experimental one and a potential real business one.
Η ομαδοποίηση είναι μια δημοφιλής μεθοδολογία με πρακτικές εφαρμογές σε διάφορους τομείς. Ωστόσο, υποστηρίζεται ευρέως ότι δεν είναι όλες οι μεταβλητές που είναι διαθέσιμες στο σετ δεδομένων εξίσου πολύτιμες για τον εντοπισμό της υποκείμενης πραγματικής δομής των συστάδων. Αντίθετα, μόνο ένα υποσύνολο από αυτές είναι διακριτικό για τη δομή συστάδων των δεδομένων, ενώ οι υπόλοιπες αποτελούν θόρυβο. Το ζήτημα αυτό γίνεται ακόμη πιο εμφανές με τα αυξημένα μεγέθη που έχουν τα σημερινά σύνολα δεδομένων παγκοσμίως, λόγω της συνολικής αύξησης της παραγωγής δεδομένων. Για την αντιμετώπιση αυτής της πρόκλησης, έχουν εισαχθεί στη βιβλιογραφία διάφορες τεχνικές μείωσης της διαστατικότητας. Η παρούσα εργασία επικεντρώνεται συγκεκριμένα στις μεθόδους επιλογής μεταβλητών στην συσταδοποίηση χρησιμοποιώντας τον αλγόριθμο K-Means. Πιο συγκεκριμένα, η μέθοδος HINoV (Heuristic Identification of Noisy Variables), η μέθοδος VS-KM (Variable Selection heuristic for K-Means clustering) και η μέθοδος Sparse K-Means (SK-Means) αναλύονται διεξοδικά και στη συνέχεια εφαρμόζονται σε προσομοιωμένα σύνολα δεδομένων, καθώς και σε ένα σύνολο δεδομένων που μοιάζει με τον πραγματικό κόσμο, για τη διεξαγωγή συγκριτικής μελέτης των επιδόσεών τους σε δύο διαφορετικά σενάρια: ένα πειραματικό και ένα πιθανό πραγματικό επιχειρηματικό.
Λέξη κλειδί Αλγόριθμος k-means
Clustering
Variable selection
K-Means algorithm
HINoV
Επιλογή μεταβλητών
Συσταδοποίηση
Διαθέσιμο από 2024-06-14 13:30:03
Ημερομηνία έκδοσης 14-06-2024
Ημερομηνία κατάθεσης 2024-06-14 13:30:03
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/