AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Διοίκησης Επιχειρήσεων / School of Business Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας / Department of Management Science and Technology Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Variable selection in clustering

Alternative Title :	Επιλογή μεταβλητών στην συσταδοποίηση

Creator :	Ζήκου, Παναγιώτα Zikou, Panagiota

Contributor :	Karlis, Dimitrios (Επιβλέπων καθηγητής) Papastamoulis, Panagiotis (Εξεταστής) Chatziantoniou, Damianos (Εξεταστής) Athens University of Economics and Business, Department of Management Science and Technology (Degree granting institution)

Type :	Text

Extent :	111p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11467

Abstract :	Η ομαδοποίηση είναι μια δημοφιλής μεθοδολογία με πρακτικές εφαρμογές σε διάφορους τομείς. Ωστόσο, υποστηρίζεται ευρέως ότι δεν είναι όλες οι μεταβλητές που είναι διαθέσιμες στο σετ δεδομένων εξίσου πολύτιμες για τον εντοπισμό της υποκείμενης πραγματικής δομής των συστάδων. Αντίθετα, μόνο ένα υποσύνολο από αυτές είναι διακριτικό για τη δομή συστάδων των δεδομένων, ενώ οι υπόλοιπες αποτελούν θόρυβο. Το ζήτημα αυτό γίνεται ακόμη πιο εμφανές με τα αυξημένα μεγέθη που έχουν τα σημερινά σύνολα δεδομένων παγκοσμίως, λόγω της συνολικής αύξησης της παραγωγής δεδομένων. Για την αντιμετώπιση αυτής της πρόκλησης, έχουν εισαχθεί στη βιβλιογραφία διάφορες τεχνικές μείωσης της διαστατικότητας. Η παρούσα εργασία επικεντρώνεται συγκεκριμένα στις μεθόδους επιλογής μεταβλητών στην συσταδοποίηση χρησιμοποιώντας τον αλγόριθμο K-Means. Πιο συγκεκριμένα, η μέθοδος HINoV (Heuristic Identification of Noisy Variables), η μέθοδος VS-KM (Variable Selection heuristic for K-Means clustering) και η μέθοδος Sparse K-Means (SK-Means) αναλύονται διεξοδικά και στη συνέχεια εφαρμόζονται σε προσομοιωμένα σύνολα δεδομένων, καθώς και σε ένα σύνολο δεδομένων που μοιάζει με τον πραγματικό κόσμο, για τη διεξαγωγή συγκριτικής μελέτης των επιδόσεών τους σε δύο διαφορετικά σενάρια: ένα πειραματικό και ένα πιθανό πραγματικό επιχειρηματικό. Clustering is a popular methodology with practical applications in various fields. However, it is widely argued that not all variables that are available in the dataset are equally valuable in identifying the underlying true cluster structure. Instead, only a subset of them is discriminant for the data cluster structure, while the rest of them constitute noise. This issue becomes even more apparent with the increased sizes that today’s world datasets have, due to the overall increase in data generation. To address this challenge, a variety of dimensionality reduction techniques have been introduced in the literature. This work specifically focuses on variable selection methods in K-Means clustering. More precisely, Heuristic Identification of Noisy Variables (HINoV), Variable Selection heuristic for K-Means clustering (VS-KM) and Sparse K-Means (SK-Means) are thoroughly analysed and then applied to simulated datasets, as well as a real-world-like dataset, to conduct a comparative study of their performance in two different scenarios: an experimental one and a potential real business one.

Abstract :

Η ομαδοποίηση είναι μια δημοφιλής μεθοδολογία με πρακτικές εφαρμογές σε διάφορους τομείς. Ωστόσο, υποστηρίζεται ευρέως ότι δεν είναι όλες οι μεταβλητές που είναι διαθέσιμες στο σετ δεδομένων εξίσου πολύτιμες για τον εντοπισμό της υποκείμενης πραγματικής δομής των συστάδων. Αντίθετα, μόνο ένα υποσύνολο από αυτές είναι διακριτικό για τη δομή συστάδων των δεδομένων, ενώ οι υπόλοιπες αποτελούν θόρυβο. Το ζήτημα αυτό γίνεται ακόμη πιο εμφανές με τα αυξημένα μεγέθη που έχουν τα σημερινά σύνολα δεδομένων παγκοσμίως, λόγω της συνολικής αύξησης της παραγωγής δεδομένων. Για την αντιμετώπιση αυτής της πρόκλησης, έχουν εισαχθεί στη βιβλιογραφία διάφορες τεχνικές μείωσης της διαστατικότητας. Η παρούσα εργασία επικεντρώνεται συγκεκριμένα στις μεθόδους επιλογής μεταβλητών στην συσταδοποίηση χρησιμοποιώντας τον αλγόριθμο K-Means. Πιο συγκεκριμένα, η μέθοδος HINoV (Heuristic Identification of Noisy Variables), η μέθοδος VS-KM (Variable Selection heuristic for K-Means clustering) και η μέθοδος Sparse K-Means (SK-Means) αναλύονται διεξοδικά και στη συνέχεια εφαρμόζονται σε προσομοιωμένα σύνολα δεδομένων, καθώς και σε ένα σύνολο δεδομένων που μοιάζει με τον πραγματικό κόσμο, για τη διεξαγωγή συγκριτικής μελέτης των επιδόσεών τους σε δύο διαφορετικά σενάρια: ένα πειραματικό και ένα πιθανό πραγματικό επιχειρηματικό.
Clustering is a popular methodology with practical applications in various fields. However, it is widely argued that not all variables that are available in the dataset are equally valuable in identifying the underlying true cluster structure. Instead, only a subset of them is discriminant for the data cluster structure, while the rest of them constitute noise. This issue becomes even more apparent with the increased sizes that today’s world datasets have, due to the overall increase in data generation. To address this challenge, a variety of dimensionality reduction techniques have been introduced in the literature. This work specifically focuses on variable selection methods in K-Means clustering. More precisely, Heuristic Identification of Noisy Variables (HINoV), Variable Selection heuristic for K-Means clustering (VS-KM) and Sparse K-Means (SK-Means) are thoroughly analysed and then applied to simulated datasets, as well as a real-world-like dataset, to conduct a comparative study of their performance in two different scenarios: an experimental one and a potential real business one.

Subject :	Συσταδοποίηση Επιλογή μεταβλητών Αλγόριθμος k-means Clustering Variable selection K-Means algorithm HINoV

Date Available :	2024-06-14 13:30:03

Date Issued :	14-06-2024

Date Submitted :	2024-06-14 13:30:03

Access Rights :	Free access

Licence :

File: Zikou_2024.pdf

Type: application/pdf

Login