Abstract : | The scientific and technological progress that has been made during the past few decades has instigated an enormous accumulation of information leading to the notion of Big data. Variable selection is a combustive issue considering that Big data are often associated with a large number of variables. An attractive and contemporary issue is the application of Bayesian variable selection methods in Big data. In the current thesis, we will firstly present known Bayesian variable selection methods that include the Zellner-Siow prior, the Zellner’s g-prior and the family of hyper g-priors. These methods will be reviewed on their model selection and information consistency. Based on simulation studies we will confirm that, under the normal linear model, all the considered prior methods satisfy the model selection consistency criterion, while Zellner’s g-prior is the only reviewed prior that slightly suffers from information inconsistency. Emphasis will also be given to the Expectation-Maximization Variable Selection (EMVS) algorithm introduced by Rocková and George (2014). The aforementioned methods along with the EMVS algorithm will be reviewed on a new consistency criterion of our proposal, called ‘Variable Selection Consistency Criterion’. Based on a simulation study we will prove that, under the normal linear model, all the considered methods satisfy the variable selection consistency criterion. Lastly, we compare the results that derive by implementing these methods on real datasets. Based on these analyses, Bayesian variable selection methods are affected by the number of covariates, the sample size and the prior considered over the model space. Η επιστημονική και τεχνολογική πρόοδος που έχει πραγματοποιηθεί τις τελευταίες δεκαετίες προκάλεσε τεράστια συσσώρευση πληροφορίας και δημιούργησε την έννοια των Big data. Ένα φλέγων ζήτημα είναι η επιλογή μεταβλητών δεδομένου ότι τα Big data συχνά σχετίζονται με μεγάλο αριθμό μεταβλητών. Ένα ελκυστικό και σύγχρονο θέμα είναι η εφαρμογή Μπεϋζιανών μεθόδων επιλογής μεταβλητών στα Big data.Στην παρούσα διατριβή, αρχικά, θα παρουσιάσουμε γνωστές Μπεϋζιανές μεθόδους επιλογής μεταβλητών, όπως την Zellner-Siow prior, την g-prior του Zellner και την οικογένεια των hyper g-priors. Για αυτές τις μεθόδους θα εξετάσουμε αν ικανοποιούν τα model selection και information consistency κριτήρια. Βάσει μελετών προσομοίωσης θα επιβεβαιώσουμε ότι, υπό το κανονικό γραμμικό μοντέλο, όλες οι μέθοδοι ικανοποιούν το model selection consistency κριτήριο, ενώ η g-prior του Zellner είναι η μόνη prior που δεν ικανοποιεί απόλυτα το information consistency κριτήριο. Έμφαση θα δοθεί στον Expectation-Maximization Variable Selection (EMVS) αλγόριθμο των Rocková and George (2014). Οι προαναφερθείσες μέθοδοι και ο EMVS αλγόριθμος θα εξεταστούν υπό ένα νέο consistency κριτήριο που προτείνουμε, το ‘Variable Selection Consistency Criterion’. Μέσω μελέτης προσομοίωσης θα αποδείξουμε ότι, υπό το κανονικό γραμμικό μοντέλο, όλες οι μέθοδοι ικανοποιούν το νέο αυτό κριτήριο. Τέλος, θα συγκρίνουμε τα αποτελέσματα που προκύπτουν από την εφαρμογή αυτών των μεθόδων σε πραγματικά δεδομένα. Βάσει αυτών των αναλύσεων, οι Μπεϋζιανές μέθοδοι επιλογής μεταβλητών επηρεάζονται από τον αριθμό των μεταβλητών, το μέγεθος του δείγματος και την prior μέθοδο που έχει επιλεχθεί για το model space.
|
---|