Abstract : | Η ομαδοποίηση χωρικών δεδομένων χρησιμοποιώντας τυπικά μοντέλα πεπερασμένων μίξεων δεν είναι πάντα ένας αποτελεσματικός τρόπος. Η χωρική ετερογένεια και η χωρική εξάρτηση, τα δύο κύρια χαρακτηριστικά των χωρικών δεδομένων πρέπει να ληφθούν υπόψη. Έτσι, σκοπός της παρούσας διπλωματικής εργασίας είναι η επέκτασητων τυπικών μοντέλων πεπερασμένων μίξεων για χωρικά δεδομένα και η χρήση τους για την ομαδοποίηση των δήμων της Αττικής ανάλογα με την ηλικιακή κατανομή των κατοίκων τους. Οι χωρικές πληροφορίες ενσωματώνονται στο μοντέλο μέσω των πιθανoτήτων μίξεων της κάθε συνιστώσας. Ειδικότερα, οι εκ των προτέρων πιθανότητες υπολογίζονται με βάση την κατανομή Gibbs. Με αυτόν τον τρόπο, η ανάθεση κάθε παρατήρησης αφήνεται να επηρεαστεί από την ομάδα στην οποία ανήκουν οι γειτόνων και έτσι η χωρική εξάρτηση συμπεριλαμβάνεται στο μοντέλο. Η εκτίμηση βασίζεται σε έναντροποποιημένο αλγόριθμο EM που εμπλουτίζεται με ένα επιπλέον, αρχικό βήμα για την προσέγγιση του πεδίου. Ο αλγόριθμος προσομοίωσης πεδίου χρησιμοποιείται σε αυτό το αρχικό βήμα. Χρησιμοποιώντας στοιχεία από την ελληνική απογραφή του 2001 για δήμους της περιφέρειας Αττικής, η ανάλυση έδειξε ότι υπάρχουν δύο συστάδες. Η πρώτη παρουσιάζει υψηλότερα ποσοστά κατοίκων σε μικρότερες ηλικίες ενώ η δεύτερη παρουσιάζει μεγαλύτερηαναλογία σε ηλικιωμένους. Τέλος, συμπεραίνεται ότι το προτεινόμενο μοντέλο είναι καλύτερο από το τυπικό μοντέλο πεπερασμένων μίξεων σε αυτή την περίπτωση. Clustering spatial data using standard finite mixture models is not always anefficient way. Spatial heterogeneity and spatial dependence, the two main characteristic of spatial data have to be taken into consideration. So, the purpose of this thesis is to extend standard finite mixture models for spatial data and use it for clusteringmunicipalities of Attica according to age distribution of their residents.The spatial information is incorporated on the model through mixing probabilities of each component. Especially, a Gibbs distribution is assumed for prior probabilities. In this way, assignment of each observation is let to be affected by neighbors’ cluster and spatial dependence is included in the model. Estimation isbased on a modified EM algorithm which is enriched by an extra, initial step for approximating the field. The simulated field algorithm is used in this initial step. Using data from Greek census of 2001 for municipalities of Attica region, the analysis revealed two clusters. The first one presents higher proportions of residentsin younger ages while the second presents higher proportion on elderly. Finally, it is concluded that proposed model overcomes the standard finite mixture model in this case.
|
---|