AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Στατιστικής / Department of Statistics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Distance-based methods for clustering mixed type data: a review and comparison study with Gower’s coefficient

Alternative Title :	Μέθοδοι με βάση την αποστάση για συσταδοποίηση δεδομένων μικτού τύπου: μια μελέτη ανασκόπησης και σύγκρισης με το συντελεστή Gower

Creator :	Hobbs-Ismeris, Alexia-Elizabeth

Contributor :	Papageorgiou, Ioulia (Επιβλέπων καθηγητής) Karlis, Dimitrios (Εξεταστής) Pedeli, Xanthi (Εξεταστής) Athens University of Economics and Business, Department of Statistics (Degree granting institution)

Type :	Text

Extent :	91p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9938

Abstract :	Η συσταδοποίηση αποτελεί μια δημοφιλής προσέγγιση σε εφαρμογές εξόρυξης δεδομένων από μεγάλους όγκους δεδομένων για την ανακάλυψη, διαχείριση, ανάλυση και εξαγωγή χρήσιμων πληροφοριών. Οι αλγόριθμοι συσταδοποίησης προσπαθούν να ανακαλύψουν ομοιογενείς ομάδες αντικειμένων με βάση τις τιμές των μεταβλητών. Η πλειοψηφία των αλγορίθμων συσταδοποίησης είναι κατάλληλοι είτε για αριθμητικά είτε για κατηγορικά δεδομένα, αλλά όχι για το συνδυασμό και των δύο. Τα δεδομένα που συναντώνται συνήθως στην καθημερινότητα, αποτελούνται ωστόσο απο μεικτούς τύπους δεδομένων. Μία απο τις κύριες προσεγγίσεις για τη συσταδοποίηση μεικτών δεδομένων βασίζεται στη χρήση μέτρων ομοιότητας. Επομένως, η δημιουργία κατάλληλων μέτρων ομοιότητας είναι ένα κρίσιμο βήμα για τη συσταδοποίηση αυτών των συνόλων δεδομένων. Η παρούσα διπλωματική εργασία εστιάζει σε μέτρα ομοιότητας για μεικτά δεδομένα που μπορούν να χρησιμοποιηθούν στην ιεραρχική μέθοδο συσταδοποίησης, με κύριο αντικείμενο μελέτης το μέτρο ομοιότητας του Gower. Συγκεκριμένα, εξετάζονται κάποιες τροποποιήσεις του συντελεστή Gower καθώς και πρόσθετα μέτρα ομοιότητας. Επιπρόσθετα, διεξάγεται μια μελέτη προσομοίωσης για την αξιολόγηση της απόδοσης των διαφορετικών μέτρων σε μεικτά δεδομένα, υπό διαφορετικές συνθήκες. Όλα τα εξεταζόμενα μέτρα ομοιότητας συγκρίνονται ως προς την ποιότητα των παραγόμενων συστάδων με τη χρήση του δείκτη Rand, και συνεπώς εξάγονται συμπεράσματα για την αποτελεσματικότητα των μέτρων ύπο διαφορετικές συνθήκες. Clustering is a popular approach in data mining applications for discovering, managing, analysing, and extracting critical information from large volumes of data. Clustering algorithms strive to discover homogeneous groups of objects based on attribute values. The majority of clustering algorithms are suitable to either solely numerical or solely categorical data, but not both. However, datasets with mixed data types are common in real life applications and such datasets have been gathered in many fields. In the case of mixed-type variables, one main approach is cluster analysis based on similarity measures. Therefore, creating appropriate similarity measures is a critical step in clustering these datasets. This thesis focuses on similarity measures for mixed data which can be applied in hierarchical cluster analysis, with its main topic being the Gower’s similarity measure. Several modifications of the Gower similarity coefficient are examined as well as various additional similarity measures. A simulation study is conducted to assess the performance of the different measures on mixed data while using hierarchical clustering under varying conditions. All the examined similarity measures are compared regarding the quality of the produced clusters by using the Rand index, and therefore assumptions concerning the efficiency of each measure are formulated under different circumstances.

Abstract :

Η συσταδοποίηση αποτελεί μια δημοφιλής προσέγγιση σε εφαρμογές εξόρυξης δεδομένων από μεγάλους όγκους δεδομένων για την ανακάλυψη, διαχείριση, ανάλυση και εξαγωγή χρήσιμων πληροφοριών. Οι αλγόριθμοι συσταδοποίησης προσπαθούν να ανακαλύψουν ομοιογενείς ομάδες αντικειμένων με βάση τις τιμές των μεταβλητών. Η πλειοψηφία των αλγορίθμων συσταδοποίησης είναι κατάλληλοι είτε για αριθμητικά είτε για κατηγορικά δεδομένα, αλλά όχι για το συνδυασμό και των δύο. Τα δεδομένα που συναντώνται συνήθως στην καθημερινότητα, αποτελούνται ωστόσο απο μεικτούς τύπους δεδομένων. Μία απο τις κύριες προσεγγίσεις για τη συσταδοποίηση μεικτών δεδομένων βασίζεται στη χρήση μέτρων ομοιότητας. Επομένως, η δημιουργία κατάλληλων μέτρων ομοιότητας είναι ένα κρίσιμο βήμα για τη συσταδοποίηση αυτών των συνόλων δεδομένων. Η παρούσα διπλωματική εργασία εστιάζει σε μέτρα ομοιότητας για μεικτά δεδομένα που μπορούν να χρησιμοποιηθούν στην ιεραρχική μέθοδο συσταδοποίησης, με κύριο αντικείμενο μελέτης το μέτρο ομοιότητας του Gower. Συγκεκριμένα, εξετάζονται κάποιες τροποποιήσεις του συντελεστή Gower καθώς και πρόσθετα μέτρα ομοιότητας. Επιπρόσθετα, διεξάγεται μια μελέτη προσομοίωσης για την αξιολόγηση της απόδοσης των διαφορετικών μέτρων σε μεικτά δεδομένα, υπό διαφορετικές συνθήκες. Όλα τα εξεταζόμενα μέτρα ομοιότητας συγκρίνονται ως προς την ποιότητα των παραγόμενων συστάδων με τη χρήση του δείκτη Rand, και συνεπώς εξάγονται συμπεράσματα για την αποτελεσματικότητα των μέτρων ύπο διαφορετικές συνθήκες.
Clustering is a popular approach in data mining applications for discovering, managing, analysing, and extracting critical information from large volumes of data. Clustering algorithms strive to discover homogeneous groups of objects based on attribute values. The majority of clustering algorithms are suitable to either solely numerical or solely categorical data, but not both. However, datasets with mixed data types are common in real life applications and such datasets have been gathered in many fields. In the case of mixed-type variables, one main approach is cluster analysis based on similarity measures. Therefore, creating appropriate similarity measures is a critical step in clustering these datasets. This thesis focuses on similarity measures for mixed data which can be applied in hierarchical cluster analysis, with its main topic being the Gower’s similarity measure. Several modifications of the Gower similarity coefficient are examined as well as various additional similarity measures. A simulation study is conducted to assess the performance of the different measures on mixed data while using hierarchical clustering under varying conditions. All the examined similarity measures are compared regarding the quality of the produced clusters by using the Rand index, and therefore assumptions concerning the efficiency of each measure are formulated under different circumstances.

Subject :	Συσταδοποίηση Δεδομένα μικτού τύπου Μέτρο ομοιότητας του Gower Τροποποιήσεις του συντελεστή Gower Μέτρα ομοιότητας Clustering Mixed data Gower’s coefficient Modifications of the Gower similarity coefficient Similarity measures

Date Available :	2022-11-30 16:21:15

Date Issued :	24-10-2022

Date Submitted :	2022-11-30 16:21:15

Access Rights :	Free access

Licence :

File: HobbsIsmeris_2022.pdf

Type: application/pdf

Login