Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο


Συλλογές	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Διοίκησης Επιχειρήσεων / School of Business Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας / Department of Management Science and Technology Μεταπτυχιακές Εργασίες / Postgraduate dissertations
Τίτλος	Variable selection in clustering
Εναλλακτικός τίτλος	Επιλογή μεταβλητών στην συσταδοποίηση
Δημιουργός	Ζήκου, Παναγιώτα, Zikou, Panagiota
Συντελεστής	Chatziantoniou, Damianos Athens University of Economics and Business, Department of Management Science and Technology Papastamoulis, Panagiotis Karlis, Dimitrios
Τύπος	Text
Φυσική περιγραφή	111p.
Γλώσσα	en
Αναγνωριστικό	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11467
Περίληψη	Clustering is a popular methodology with practical applications in various fields. However, it is widely argued that not all variables that are available in the dataset are equally valuable in identifying the underlying true cluster structure. Instead, only a subset of them is discriminant for the data cluster structure, while the rest of them constitute noise. This issue becomes even more apparent with the increased sizes that today’s world datasets have, due to the overall increase in data generation. To address this challenge, a variety of dimensionality reduction techniques have been introduced in the literature. This work specifically focuses on variable selection methods in K-Means clustering. More precisely, Heuristic Identification of Noisy Variables (HINoV), Variable Selection heuristic for K-Means clustering (VS-KM) and Sparse K-Means (SK-Means) are thoroughly analysed and then applied to simulated datasets, as well as a real-world-like dataset, to conduct a comparative study of their performance in two different scenarios: an experimental one and a potential real business one. Η ομαδοποίηση είναι μια δημοφιλής μεθοδολογία με πρακτικές εφαρμογές σε διάφορους τομείς. Ωστόσο, υποστηρίζεται ευρέως ότι δεν είναι όλες οι μεταβλητές που είναι διαθέσιμες στο σετ δεδομένων εξίσου πολύτιμες για τον εντοπισμό της υποκείμενης πραγματικής δομής των συστάδων. Αντίθετα, μόνο ένα υποσύνολο από αυτές είναι διακριτικό για τη δομή συστάδων των δεδομένων, ενώ οι υπόλοιπες αποτελούν θόρυβο. Το ζήτημα αυτό γίνεται ακόμη πιο εμφανές με τα αυξημένα μεγέθη που έχουν τα σημερινά σύνολα δεδομένων παγκοσμίως, λόγω της συνολικής αύξησης της παραγωγής δεδομένων. Για την αντιμετώπιση αυτής της πρόκλησης, έχουν εισαχθεί στη βιβλιογραφία διάφορες τεχνικές μείωσης της διαστατικότητας. Η παρούσα εργασία επικεντρώνεται συγκεκριμένα στις μεθόδους επιλογής μεταβλητών στην συσταδοποίηση χρησιμοποιώντας τον αλγόριθμο K-Means. Πιο συγκεκριμένα, η μέθοδος HINoV (Heuristic Identification of Noisy Variables), η μέθοδος VS-KM (Variable Selection heuristic for K-Means clustering) και η μέθοδος Sparse K-Means (SK-Means) αναλύονται διεξοδικά και στη συνέχεια εφαρμόζονται σε προσομοιωμένα σύνολα δεδομένων, καθώς και σε ένα σύνολο δεδομένων που μοιάζει με τον πραγματικό κόσμο, για τη διεξαγωγή συγκριτικής μελέτης των επιδόσεών τους σε δύο διαφορετικά σενάρια: ένα πειραματικό και ένα πιθανό πραγματικό επιχειρηματικό.
Λέξη κλειδί	Αλγόριθμος k-means Clustering Variable selection K-Means algorithm HINoV Επιλογή μεταβλητών Συσταδοποίηση
Διαθέσιμο από	2024-06-14 13:30:03
Ημερομηνία έκδοσης	14-06-2024
Ημερομηνία κατάθεσης	2024-06-14 13:30:03
Δικαιώματα χρήσης	Free access
Άδεια χρήσης	https://creativecommons.org/licenses/by/4.0/