Περίληψη : | As the technology is developed, the data that we are able to handle are more complicated. In many scientific fields, the data sets have much more variables than observations (high dimensional data sets). In model-based clustering, the problem with the high dimensional data sets is that the number of parameters that need to be estimated is much more than the observations. This number is further increased when the number of clusters increases. For reducing the parameters that need to be estimated, the assumptions for covariance components are more general.For overcoming the high dimensional problem, many approaches have been proposed. Some approaches that have been proposed are the using of principal components analysis to reduce the dimensions and the variable selection for keeping in the clustering only the variables that contribute to the clustering. In this thesis we will focus in the approach of variable selection developing four methods that select automatic the variables that contribute to clustering in model-based clustering especially for “high dimension, low sample size” data,where the data dimension greatly exceeds the number of observations. Καθώς η τεχνολογία αναπτύσσεται, τα δεδομένα τα οποία μπορούμε ναχειριστούμε γίνονται πιο πολύπλοκα. Σε πολλά επιστημονικά πεδία, υπάρχουνσετ δεδομένων που έχουν πολύ περισσότερες μεταβλητές από ότι δεδομένα(μεγάλων διαστάσεων σετ δεδομένα). Στην ομαδοποίηση με τη χρήσημοντέλων, το πρόβλημα στα μεγάλων διαστάσεων σετ δεδομένα είναι ότι οαριθμός των παραμέτρων που χρειάζεται να εκτιμηθεί είναι πολύ μεγαλύτεροςαπό τις παρατηρήσεις. Αυτός ο αριθμός αυξάνεται περεταίρω όταν ο αριθμόςτων ομάδων μεγαλώνει. Για να μειώσουμε τις παραμέτρους που χρειάζεται ναεκτιμηθούν, οι υποθέσεις για τα στοιχεία του πίνακα συνδιακύμανσης είναι πιογενικές.Για να λυθεί το πρόβλημα στα μεγάλων διαστάσεων σετ δεδομένα, έχουνπροταθεί πολλές επιστημονικές προσεγγίσεις. Κάποιες από αυτές είναι η χρήσητης ανάλυσης σε κύριες συνιστώσες ώστε να μειωθούν οι διαστάσεις και ηεπιλογή των μεταβλητών που συνεισφέρουν στην ομαδοποίηση. Σε αυτήν τηνεργασία θα επικεντρωθούμε στη δεύτερη προσέγγιση, δηλαδή στην επιλογή τωνχρήσιμων μεταβλητών αναπτύσσοντας τέσσερις μεθόδους που πραγματοποιούναυτόματη επιλογή μεταβλητών στην ομαδοποίηση με τη χρήση μοντέλου ειδικάσε μεγάλων διαστάσεων σετ δεδομένα όπου ο αριθμός των διαστάσεωνυπερβαίνει κατά πολύ τον αριθμό των παρατηρήσεων.
|
---|