Πλοήγηση ανά Επιβλέπων "Ntzoufras, Ioannis"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 20 από 30
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Adaptive Bayesian variable selection for regression with large number of covariatesMichail, Konstantinos Ion S.; Μιχαήλ, Κωνσταντίνος Ίων Σ.; Athens University of Economics and Business, Department of Statistics; Tsiamyrtzis, Panagiotis; Vasdekis, Vassilis; Ntzoufras, IoannisThis thesis is an overview of some of the most recent developments on the topic of Bayesian Variable Selection, both from a theoretical and a computational point of view. We turn our attention to objective Bayes methods and discuss their extensions to high-dimensional settings. We also provide a detailed proof of the Unitary Bayes Factor property which was not available. By taking advantage of the closed form expressions of the posterior model distribution (up to a unknown normalizing constant) we employ Adaptive MCMC algorithms to explore the posterior model space. We showcase the ability of Adaptive MCMC to outperform default Metropolis Hastings algorithms for model space exploration such as MC3. We also empirically assess the model selection consistency of Objective Bayes methods, provide examples of variable selection in high dimensional settings as well as how Bayesian Variable selection can be implemented in order to estimate non-linear functions. Our analysis of real datasets shows that the reviewed methods can result in models which have better predictive performance than the full model, in the n > p case and are comparable to the performance of shrinkage priors in high dimensional settings at a lower computational cost.Τεκμήριο Applying time series models to hierarchical data(31-03-2023) Πετρούτσος, Νικόλαος; Petroutsos, Nikolaos; Athens University of Economics and Business, Department of Statistics; Karlis, Dimitrios; Vrontos, Ioannis; Ntzoufras, IoannisΗ παρούσα Μεταπτυχιακή Διατριβή επικεντρώνεται στην περιγραφή και πρόβλεψη ιεραρχικών και ομαδοποιημένων χρονοσειρών. Ως «χρονοσειρές» αναφέρονται αυστηρά χρονικά διατεταγμένες ακολουθίες παρατηρήσεων που λαμβάνονται σε ίσα χρονικά διαστήματα. Οι χρονοσειρές μπορούν συχνά να διαμεριστούν φυσικά, σε επιμέρους χρονοσειρές, βάσει διάφορων χαρακτηριστικών ενδιαφέροντος. Για παράδειγμα, ο συνολικός αριθμός των προϊόντων που πωλούνται από έναν κατασκευαστή μπορεί να αναλυθεί ανά τύπο προϊόντος, όπως μπισκότα, σοκολάτες και σνακ. Κάθε ένας από αυτούς τους τύπους μπορεί να αναλυθεί σε επιμέρους κατηγορίες. Για παράδειγμα, τα μπισκότα μπορούν να χωριστούν σε μπισκότα με ή χωρίς ζάχαρη και ούτω καθεξής. Αυτές οι κατηγορίες είναι ένθετες μέσα στις μεγαλύτερες ομάδες κατηγοριών, και έτσι η συλλογή των χρονοσειρών ακολουθεί μια ιεραρχική δομή συνάθροισης. Επομένως, αυτές αναφέρονται ως «ιεραρχικές χρονοσειρές». Η διαθεσιμότητα τέτοιων δεδομένων είναι ευρεία σε πολλούς τομείς της επιστήμης, όπως η ιατρική, η εκπαίδευση, η ψυχολογία και οι οικονομικές επιστήμες. Στην παρούσα μεταπτυχιακή διατριβή, θα αναλυθούν δεδομένα που προέρχονται από τον τομέα του μάρκετινγκ. Συγκεκριμένα, θα εξεταστούν προϊόντα από τέσσερις διαφορετικές κατηγορίες. Κάθε κατηγορία περιλαμβάνει πέντε κατασκευαστές, και κάθε κατασκευαστής παράγει από ένα έως τρία προϊόντα Η παρούσα διπλωματική εργασία έχει ως στόχο να αναπτυχθεί ένα μοντέλο με το ελάχιστο δυνατό σφάλμα πρόβλεψης, χρησιμοποιώντας συγκεκριμένα μέτρα ακρίβειας σε ιεραρχικό επίπεδο κατασκευαστών. Στη συνέχεια, θα χρησιμοποιηθούν μέθοδοι συμβιβασμού (reconciliation) για να συγκριθούν οι προβλέψεις του καλύτερου μοντέλου με τις προβλέψεις των μεθόδων συμβιβασμού (reconciliation).Τεκμήριο Bayesian analysis and model selection for contingency tables using power priors(21-03-2022) Μαντζούνη, Αικατερίνη; Mantzouni, Katerina; Athens University of Economics and Business, Department of Statistics; Karlis, Dimitrios; Kateri, Maria; Tarantola, Claudia; Demiris, Nikolaos; Papastamoulis, Panagiotis; Vasdekis, Vassilis; Ntzoufras, IoannisΚεντρικός πυλώνας της παρούσας διδακτορικής διατριβής είναι η ανάπτυξη προτεινόμενης μεθοδολογίας για τη Μπεϋζιανή ανάλυση κατηγορικών μεταβλητών σε πίνακες συνάφειας με σκοπό την επιλογή του καταλληλότερου μοντέλου. Η προτεινόμενη μεθοδολογία περιλαμβάνει τον καθορισμό κατάλληλων εκ-των-προτέρων κατανομών, καθώς επίσης και υπολογιστικές τεχνικές για την εκτίμηση Μπεϋζιανών περιθώριων πιθανοφανειών, οι οποίες είναι απαραίτητες για τον υπολογισμό των εκ-των-υστέρων κατανομών στην Μπεϋζιανή σύγκριση και επιλογή του καταλληλότερου μοντέλου. Πιο συγκεκριμένα, η επιλογή κατάλληλης εκ-των-προτέρων κατανομής στη Μπεϋζιανή σύγκριση μοντέλων και των σχετικών ελέγχων είναι πολλές φορές προβληματική λόγω του γνωστού προβλήματος ευαισθησίας των εκ των υστέρων πιθανοτήτων και του παραδόξου των Barlett-Lindley. Το γεγονός αυτό οδήγησε στην ανάπτυξη αντικειμενικών Μπεϋζιανών τεχνικών, οι οποίες προτείνουν τη χρήση μη πληροφοριακών εκ-των-προτέρων κατανομών, όταν δεν υπάρχει καμιά εκ-των-προτέρων πληροφορία για τα δεδομένα. Σε αυτο το πλαίσιο προτείνονται οι εκ-των-προτέρων κατανομές δύναμης. Για την εφαρμογή της προτεινόμενης μεθοδολογίας σε πίνακες συνάφειας, που στόχο έχει την επιλογή του καταλληλότερου μοντέλου συνάφειας, κατασκευάστηκαν δύο σενάρια εκ-των-προτέρων κατανομών με τη χρήση πλασματικών δεδομένων, τα οποία βασίστηκαν στις εκ-των-προτέρων κατανομές δύναμης. Εισάγουμε και εξετάζουμε δύο προτεινόμενους Μόντε Κάρλο εκτιμητές. Όλες οι τεχνικές εφαρμόστηκαν και ελέγχθηκαν σε πραγματικά δεδομένα αλλά και σε αναλυτικές μελέτες προσομοίωσης. Για να ελεγχθεί η εγκυρότητα της προτεινόμενης μεθοδολογίας χρησιμοποιήθηκαν κριτήρια αντικειμενικών μεθόδων Bayes, όπως συνέπεια επιλογής μοντέλων, συνέπεια πληροφορίας και το κριτήριο της αντιστοίχισης προβλεπτικών κατανομών. Τέλος, παρουσιάζεται η επέκταση της μεθοδολογίας στη χρήση μεθόδων Μπεϋζιανής ανάλυσης γραφικών μοντέλων σε πίνακες συνάφειας τριπλής εισόδου χρησιμοποιώντας εκ-των-προτέρων κατανομές δύναμης. Σε κάθε μοντέλο υπό συνθήκη ανεξαρτησίας αντιστοιχείται μια συγκεκριμένη παραγοντοποίηση των πιθανοτήτων των κελιών και εφαρμόζεται συζυγής ανάλυση, βασιζόμενη σε Dirichlet εκ-των-προτέρων κατανομές. Εκ-των-προτέρων κατανομές μοναδιαίας ερμηνευτικής πληροφορίας χρησιμοποιούνται σαν μέτρο σύγκρισης με στόχο να ελεγχθεί και να ερμηνευθεί η επίδραση οποιονδήποτε εκ-των-προτέρων κατανομών στον παράγοντα Bayes και κατ’ επέκταση στην διαδικασία επιλογής γραφικών μοντέλων.Τεκμήριο Bayesian competing risks analysis of HIV data with missing event types(25-09-2023) Χαραλαμπόπουλος, Ιωάννης; Charalampopoulos, Ioannis; Athens University of Economics and Business, Department of Statistics; Yiannoutsos, Constantin T.; Bakoyannis, Georgios; Ntzoufras, IoannisΟ ιός HIV είναι ένας ευρέως μεταδιδόμενος ιός ειδικά στην Αφρική. Ευρέως γνωστός ως η μεγαλύτερη πανδημία στις μέρες μας, από το 1981, είναι υπεύθυνη για το θάνατο για περισσότερους από 40 εκατομμύρια ανθρώπους. Είναι κρίσιμο να εντοπιστούν οι περισσότεροι παράγοντες που επηρεάζουν τη μετάδοση καθώς και το ποσοστό θνησιμότητας και οι ομάδες των ατόμων που είναι πιο ευάλωτα στο να χάσουν τη ζωή τους. Επίσης, είναι πολύ σημαντικό να προσδιοριστεί, παρουσία πολλαπλών πιθανών αποτελεσμάτων ενδιαφέροντος, το αποτέλεσμα που θα εκφραστεί στους ασθενείς προκειμένου να εφαρμοστούν οι κατάλληλες ενέργειες. Τα ακριβή αποτελέσματα θα βοηθήσουν την κοινότητα της υγείας να ενεργήσει εξαιρετικά αποτελεσματικά και να εξοικονομήσει χρήματα και να σώσει όσο το δυνατόν περισσότερες ζωές. Σε αυτή τη διατριβή θα γίνει ο ορισμός της ανάλυσης επιβίωσης και των ανταγωνιστικών κινδύνων, μαζί με μεθόδους εκτίμησης πιθανών ελλειπόντων αποτελεσμάτων και θα δοθεί σύντομη ανάλυση του συνόλου δεδομένων. Είναι πολύ σημαντικό να το αναφέρουμε πως υπάρχουν δύο πιθανά αποτελέσματα ενδιαφέροντος για αυτό το συγκεκριμένο σύνολο δεδομένων, απώλεια ζωής και το να φύγει κάποιος από τη περίθαλψη. Θα αναλυθούν τόσο κλασσικά όσο και μπεϋζιανά μοντέλα και διαφορετικές προσεγγίσεις για την εκτίμηση του αποτελέσματος για ασθενείς που έχουν ταξινομηθεί λανθασμένα ως άτομα που φεύγουν κατά τη διάρκεια της θεραπείας.Τεκμήριο Bayesian computation and inference using Stan with application in football(31-12-2018) Spyropoulou, Maria-Zafeiria; Σπυροπούλου, Μαρία-Ζαφειρία; Athens University of Economics and Business, Department of Informatics; Ntzoufras, IoannisIn this thesis, we show how Bayesian Statistics can be applied to football modelling. In this respect, we attempt to model the number of goals scored and conceded by two football teams using two Bayesian models. The first model we use is a simple Bayesian interpretation of the away and home team for each match. The second model we use is an implementation of hierarchical models. We use hierarchical model as we want to express the correlation between the number of goals for the home team and the number of goals for the away team. We use data from the English Premier League for the season 2017-18 which provide us with the final result of each match of the season and help us to describe the characteristics of each team. We then choose different variables and see how well they fit our model. Finally, we use out-of-sample criteria to denote which model is better than the other.Τεκμήριο Bayesian Latent Variable Models for Binomial Responses: analysis of Schizotypal and Consumer Behavior Data from a University StudyOikonomou, Athanasia; Athens University of Economics and Business, Department of Statistics; Ntzoufras, IoannisThe aim of this thesis is to examine whether impulsive and compulsive buying are related to the schizotypal personality characteristics. The Bayesian approach may be adopted to analyze the association between Schizotypal Personality Questionnaire (SPQ) scale and impulsive and compulsive responses of university students in Greece.In Bayesian analysis all the available prior information of the data is used in combination with the data likelihood in order to calculate posterior distribution of the parameters of interest. Here statistical inference and interpretation of the parameters is solely based on their posterior distribution. However, usually it is difficult to calculate the posterior distribution of interest. In such cases modern computational methods such as Markov Chain Monte Carlo techniques are used to generate a sample from the corresponding posterior distributions of interest in which we can base our inference.Firstly we present the latent factorial structure of schizotypal personality disorder as examined in the related bibliography. Several factor models are used to identify the latent structure of the data and represent hidden dimensions of Schizotypal Personality Disorder. Five models are compared via model selection criteria.After analysing the latent structure of SPQ, we construct models to associate schizotypal data with impulsive and compulsive buying data. In our analysis we used the Binomial/ Logit model while in the related bibliography is used the normal one. Finally, having applied these models we observed that that there was no strong connection between comsuming behavior and schizotypy.Τεκμήριο Bayesian latent variable models for ordinal dataAthens University of Economics and Business, Department of Statistics; Ntzoufras, IoannisGenerally, Latent variables models are used in cases that the under studyvariables cannot be measured directly. Such variables are for example, consumersatisfaction of a new product. Here we analyze a market research dataset with discreteordinal manifest variables and continuous latent features. Thus the methodology oflatent trait models has been applied. In order to express our personal beliefs about theunder study problem, the Bayesian approach has been implemented. Through theBayesian paradigm we assume a prior distribution to express our information aboutthe under estimation parameters. The combination of the prior distribution with thelikelihood, results in the posterior distribution. Estimation of the posterior distributioncan be achieved through Markov Chain Monte Carlo (MCMC) algorithms. For ourdataset the Gibbs sampler was implemented via the WinBungs software.Three different link functions were used, the logit, the probit and the c-loglog.Furthermore, one and two factor latent trait models were fitted. The final choice of themodel was achieved through the Deviance Information Criterion (DIC).The aforementioned methodology was applied to detect a possible linkbetween excessive consumption behaviors with schizotypy. The impulsive and thecompulsive buying behaviors are considered excessive by the experts. On the otherhand, schizotypy is related to a specific gene which increases the probability ofschizophrenia when combined with specific environmental conditions. Suchconditions are stress, anguish or even sadness (generally negative feelings).Schizotypy can be detected by its nine traits through the SPQ questionnaire.Obviously, interest lies in their association with serious psychiatric deceases. The datawere collected for the purposes of a student survey (Iliopoulou, 2004) in the School ofManagement Sciences of the University of Aegean and the Technological EducationInstitutes of Crete and Piraeus.Useful and interesting outcomes have been raised as far as the potentialinfluence of schizotypy on impulsive and compulsive buying behaviors. Furthermore,many proposals for deeper exploration have been occurred but unfortunately arebeyond the purposes of this thesis.Τεκμήριο Bayesian model determination and nonlinear threshold volatility modelsPetralias, Athanassios; Πετραλιάς, Αθανάσιος; Athens University of Economics and Business, Department of Statistics; Dellaportas, Petros; Ntzoufras, IoannisThe purpose of this Thesis is to document an original contribution in the areas of model determination and volatility modeling. Model determination is the procedure that evaluates the ability of competing hypothesized models to describe a phenomenon under study. Volatility modeling in the present context, involves developing models that can adequately describe the volatility process of a financial time series. In this Thesis we focus on the development of efficient algorithms for Bayesian model determination using Markov Chain Monte Carlo (MCMC), which are also used to develop a family of nonlinear flexible models for volatility. We propose a new method for Bayesian model determination that incorporates several desirable characteristics, resulting in better mixing for the MCMC chain and more precise estimates of the posterior density. The new method is compared with various existing methods in an extensive simulation study, as well as more complex model selections problems based on linear regression, with both simulated and real data comprising of 300 to 1000 variables. The method seems to produce rather promising results, overperforming several other existing algorithms in most of the analyzed cases. Furthermore the method is applied to gene selection using logistic regression, with a famous dataset including 3226 genes. The problem lies in identifying the genes related to the presence of a specific form of breast cancer. The new method again proves to be more efficient when compared to an existing Population MCMC sampler, while we extend the findings of previous medical studies on this issue. We present a new class of flexible threshold models for volatility. In these models the variables included, as well as the number and location of the threshold points are estimated, while the exogenous variables are allowed to be observed on lower frequencies than the dependent variable. To estimate these models we use the new method for Bayesian model determination, enriched with new move types, the use of which is validated through additional simulations. Furthermore, we propose a comparative model based on splines, where the number and location of the spline knots is related to a set of exogenous variables. The new models are applied to estimate and predict the variance of the Euro-dollar exchange rate, using as exogenous variables a set of U.S. macroeconomic announcements. The results indicate that the threshold models can provide significantly better estimates and projections than the spline model and typical conditional volatility models, while the most important macroeconomic announcements are identified. The threshold models are then generalised to the multivariate case. Under the proposed methodology, the estimation of the univariate variances is only required, as well as a rather small collection of regression coefficients. This simplifies greatly the inference, while the model is found to perform rather well in terms of predictability. A detailed review of both the available algorithms for Bayesian Model determination and nonlinear models for financial time series is also included in this Thesis. We illustrate how the existing methods for model determination are embedded into a common general scheme, while we discuss the properties and advantages each method has to offer. The main argument presented is that there is no globally best or preferable method, but their relative performance and applicability, depends on the dataset and problem of interest. With respect to the nonlinear models for financial time series and volatility we present in a unified manner, the main parametric and nonparametric classes of these models, while there is also a review of event studies analyzing the effect of news announcements on volatility.Τεκμήριο Bayesian modelling of volleyball data(06/21/2019) Palaskas, Vasileios I.; Παλάσκας, Βασίλειος Ι.; Athens University of Economics and Business, Department of Statistics; Karlis, Dimitris; Repousis, Panagiotis; Ntzoufras, IoannisΣε αυτή την διπλωματική, εμείς επικεντρωνόμαστε στο "χτίσιμο" Μπεϋζιανών μοντέλων για να αναλύσουμε ένα σετ δεδομένων του Βόλεϊ. Πιο συγκεκριμένα, η πρώτη και πιο σημαντική πρόκληση είναι να βρούμε τα κατάλληλα μοντέλα για την μεταβλητή απόκρισης της διαφοράς των σετ. Τα μοντέλα δεν μπορούν να είναι τα συνηθισμένα της Poisson και της διωνυμικής κατανομής, τα οποία χρησιμοποιούνται συνήθως για τα άλλα ομαδικά αθλήματα. Tα μοντέλα που προτείνουμε εδώ θα χρησιμοποιηθούν τόσο για την περιγραφή και κατανόηση του αθλήματος όσο και για την πρόβλεψη. Έτσι, ενώ αρχικά θα ελέγξουμε την προσαρμογή των δύο συνηθισμένων μοντέλων στα ομαδικά αθλήματα, στην συνέχεια θα προχωρήσουμε στην ανάπτυξη και εφαρμογή μοντέλων που θα λαμβάνουν υπόψιν τους τα ειδικά χαρακτηριστικά του παιχνιδιού. Έτσι, πρώτα από όλα, το μοντέλο στο οποίο θα επικεντρωθούμε είναι ένα μοντέλο βασισμένο στην κατανομή Skellam (or Poisson difference) για τη διαφορά των σετ ως εξαρτημένη μεταβλητή. Στην ουσία, θα προσπαθήσουμε να προσαρμόσουμε την κατανομή Skellam ώστε να λάβουμε υπόψιν τους κανόνες του αθλήματος. Πιο συγκεκριμένα, δεδομένου της μη ύπαρξης ισοπαλιών και του ότι η ομάδα που κερδίζει τον αγώνα κερδίζει τον αγώνα με μέγιστο αριθμό νικηφόρων σετ 3 στους αγώνες, χρειαζόμαστε να επεκτείνουμε το μοντέλο ώστε να αντιμετωπίσουμε τα παραπάνω ζητήματα. Μία άλλη κατηγορία μοντέλων που χρησιμοποιείται πρώτα σε αυτή την εργασία είναι τα πολυωνυμικά και διατάξιμα πολυωνυμικά μοντέλα με την ίδια εξαρτημένη μεταβλητή (διαφορά των σετ). Όσον αφορά τις επεξηγηματικές μεταβλητές, αρχικά προσαρμόζουμε και συγκρίνουμε τα μοντέλα με την κοινή επίδραση της έδρας και τις επιθετικές καθώς και αμυντικές ικανότητες των εντός και εκτός έδρας ομάδων. Σε δεύτερο στάδιο, θα προσαρμόσουμε μοντέλα με καταγεγγραμένες δεξιότητες ως επεξηγηματικές μεταβλητές όπως το σερβίς, το μπλοκ μεταξύ άλλων. Αυτό θα γίνει συμπεριλαμβάνοντας μοντέρνες τεχνικές Μπεϋζιανής επιλογής μεταβλητών. Με αυτό τον τρόπο επίσης θα εφαρμόσουμε Μπεϋζιανή στάθμιση των μοντέλων. Μέσω των διαγνωστικών των μοντέλων θα γίνει έλεγχος καλής προσαρμογής και για τις δύο περιπτώσεις των μοντέλων χωρίς δεξιότητες (πολυωνυμικά και Skellam). Η Μπεϋζιανή σύγκριση μοντέλων θα γίνει πρώτα μέσω των κριτηρίων πληροφορίας για όλα τα μοντέλα της ίδιας κατανομής με και χωρίς τις δεξιότητες (ως επιπρόσθετες μεταβλητές) ώστε να αποφασίσουμε αν η ενσωμάτωση των δεξιοτήτων ως (επιπρόσθετες) μεταβλητές στα ήδη υπάρχοντα μοντέλα (με τις συνηθισμένες ομαδικές ικανότητες) βελτιώνουν ή όχι την προβλεπτική απόδοση των μοντέλων. Στην συνέχεια, η Μπεϋζιανή σύγκριση μοντέλων θα γίνει μέσω άλλων μεθόδων μεταξύ όλων των μοντέλων χωρίς τις δεξιότητες (ως επεξηγηματικές μεταβλητές).Όσον αφορά την καλή προσαρμογή των μοντέλων χωρίς δεξιότητες (ως επεξηγηματικές μεταβλητές), το διατάξιμο πολυωνυμικό μοντέλο και το μοντέλο βασισμένο στην Skellam κατανομή έχουν την καλύτερη απόδοση. Η ενσωμάτωση των δεξιοτήτων βελτιώνει την προβλεπτική απόδοση τόσο του διατάξιμου μοντέλου όσο και των μοντέλων που βασίζονται στην Skellam κατανομή, σύμφωνα με τα κριτήρια πληροφορίας. Τέλος, το διατάξιμο πολυωνυμικό μοντέλο και το μοντέλο βασισμένο στην Skellam κατανομή έχουν την καλύτερη προβλεπτική απόδοση, σύμφωνα με άλλες μεθόδους αξιολόγησης της προβλεπτικής απόδοσης των μοντέλων.Τεκμήριο Bayesian multivariate meta-analytic models in surrogate clinical endpoint evaluation(31-08-2023) Δάκη, Βάγια; Daki, Vagia; Athens University of Economics and Business, Department of Statistics; Demiris, Nikolaos; Karlis, Dimitrios; Ntzoufras, IoannisΗ σημαντικότητα των κλινικών παραμέτρων υποκατάστασης στον τομέα της τεκμηριωμένης ιατρικής έγκειται στην ικανότητά τους να επιταχύνουν τη διαδικασία λήψης αποφάσεων των ρυθμιστικών φορέων, μειώνοντας την απαιτούμενη περίοδο παρακολούθησης σε τυχαιοποιημένες κλινικές δοκιμές (ΤΚΔ) που αξιολογούν μια νέα παρέμβαση στον τομέα της υγείας. Έτσι, με την ενσωμάτωση κλινικών παραμέτρων υποκατάστασης στο σχεδιασμό κλινικών δοκιμών, νέες θεραπείες μπορεί να καταστούν διαθέσιμες για τους ασθενείς σε πιο σύντομο χρονικό διάστημα.Η αξιολόγηση κλινικών παραμέτρων υποκατάστασης στο Μετα-Αναλυτικό πλαίσιο, παρέχει το υψηλότερο επίπεδο αποδεικτικών στοιχείων σχετικά με την ισχύ της σχέσης μεταξύ της τελικής και της παραμέτρου υποκατάστασης. Το μοντέλο Διμεταβλητών Τυχαίων Επιδράσεων Μετα-Ανάλυσης με Παραμετροποίηση Δεσμευμένων Κατανομών (ΔΤΕΜΑ-ΠΔΚ) μαζί με το μοντέλο των Daniels και Hughes, αποτελούν ένα συχνά χρησιμοποιούμενο μεθοδολογικό πλαίσιο για την αξιολόγηση κλινικών παραμέτρων υποκατάστασης, όπως προτείνεται από τη Μονάδα Υποστήριξης Αποφάσεων του Εθνικού Ινστιτούτου για την Αριστεία Υγείας και Φροντίδας του Ηνωμένου Βασιλείου.Διάφοροι παράγοντες επηρεάζουν τα αποτελέσματα της αξιολόγησης κλινικών παραμέτρων υποκατάστασης, με τον πιο συχνό περιορισμό τέτοιων αναλύσεων να είναι ο μικρός αριθμός ΤΚΔ που περιλαμβάνονται στην ανάλυση. Διεξάγεται μια μελέτη προσομοίωσης προκειμένου να αξιολογηθεί η απόδοση των προαναφερθέντων μοντέλων κάτω από διαφορετικά σενάρια και να εξεταστεί η επίδραση διαφόρων χαρακτηριστικών της βάσης στοιχείων,(όπως ο αριθμός των ΤΚΔ που περιλαμβάνονται στην ανάλυση), στη σχέση μεταξύ της τελικής και της παραμέτρου υποκατάστασης.Τα αποτελέσματα της μελέτης προσομοίωσης καταδεικνύουν ότι υπό την υπόθεση ανταλλαξιμότητας το ΔΤΕΜΑ-ΠΔΚ είναι ανώτερο από το μοντέλο των Daniels και Hughes, όσον αφορά την ανίχνευση της σχέσης μεταξύ της τελικής και της παραμέτρου υποκατάστασης. Επιπλέον, όταν ένας περιορισμένος αριθμός ΤΚΔ είναι διαθέσιμος για την ανάλυση, υπάρχει μεγάλη πιθανότητα να απορριφθεί λανθασμένα η εγκυρότητα μιας κλινικής παραμέτρου υποκατάστασης. Επιπλέον, συμπεραίνεται ότι η απόδοση του μοντέλου των Daniels και Hughes είναι κακή όταν η ετερογένεια μεταξύ των μελετών δεν είναι μεγάλη. Όπως τονίζεται από τα αποτελέσματα της μελέτης προσομοίωσης και την έρευνα των Papanikos et al. και Bujkiewicz et al, το πλαίσιο μοντελοποίησης για την αξιολόγηση κλινικών παραμέτρων υποκατάστασης θα πρέπει να βελτιστοποιηθεί προκειμένου να ξεπεραστεί ο περιορισμός που έγκειται σε τέτοιες αναλύσεις λόγω του μικρού μεγέθους δείγματος.Τεκμήριο Bayesian variable selection and shrinkage using Lasso methodsKatsarps, Michail; Athens University of Economics and Business, Department of Statistics; Ntzoufras, IoannisLeast squares method is the usual way of treating a multiple regression problem. But not all available predictors are meaningful for the response variable. Poor performance in terms of prediction accuracy and interpretation are problems arising when overfitting the data. Variable selection methods improve interpretation and prediction by producing models of lower dimension, while shrinkage techniques reduce the variance of predicted values by shrinking predictors’ coefficients towards zero.LASSO performs both shrinkage and variable selection by shrinking some coefficients towards zero and setting others exactly equal to zero. A tuning parameter is involved, which controls the shrinkage procedure while k-fold Cross Validation is used to specify its optimal value. Additionally, the lasso estimates can be defined as a Bayesian posterior mode when regression coefficients are placed under independent double-exponential (Laplace) priors.Τεκμήριο Bayesian variable selection for big data using EMVS(07/02/2018) Koukoumtzi, Stergiani T.; Κουκουμτζή, Στεργιανή Θ.; Athens University of Economics and Business, Department of Statistics; Titsias, Mixail; Karlis, Dimitrios; Ntzoufras, IoannisThe scientific and technological progress that has been made during the past few decades has instigated an enormous accumulation of information leading to the notion of Big data. Variable selection is a combustive issue considering that Big data are often associated with a large number of variables. An attractive and contemporary issue is the application of Bayesian variable selection methods in Big data. In the current thesis, we will firstly present known Bayesian variable selection methods that include the Zellner-Siow prior, the Zellner’s g-prior and the family of hyper g-priors. These methods will be reviewed on their model selection and information consistency. Based on simulation studies we will confirm that, under the normal linear model, all the considered prior methods satisfy the model selection consistency criterion, while Zellner’s g-prior is the only reviewed prior that slightly suffers from information inconsistency. Emphasis will also be given to the Expectation-Maximization Variable Selection (EMVS) algorithm introduced by Rocková and George (2014). The aforementioned methods along with the EMVS algorithm will be reviewed on a new consistency criterion of our proposal, called ‘Variable Selection Consistency Criterion’. Based on a simulation study we will prove that, under the normal linear model, all the considered methods satisfy the variable selection consistency criterion. Lastly, we compare the results that derive by implementing these methods on real datasets. Based on these analyses, Bayesian variable selection methods are affected by the number of covariates, the sample size and the prior considered over the model space.Τεκμήριο Bayesian variable selection using hyper-g prior and adaptive sampling(12-06-2015) Anastasakis, Fivos; Athens University of Economics and Business, Department of Statistics; Ntzoufras, IoannisBayesian variable selection has become an area of extensive researchthrough the last decades. The two main challenges that a researcher confronts,is the specification of the prior distribution on model parameters and thecalculation of the posterior model probability which makes the evaluation of acandidate model feasible. In linear models, popular prior choices are based onconjugate analysis of Normal-Gamma family. Among them, alternatives basedon Zellner’s g-prior are mainly preferred, as they lead to tractable marginallikelihoods. On the other hand, since posterior inference is related to highdimensional integrals, Bayesian model selection became popular only after theadoption of advanced simulation algorithms, that are used to overcomedemanding computational issues.In the current thesis, we will attempt a review of the existingmethodologies that deal with the Bayesian model selection problem. Differentways of estimating Bayes Factors will be covered and major MCMC basedalgorithms that deal with the exploration of model space and estimation ofposterior will be presented. Emphasis will be given on Bayesian adaptivesampling algorithm of Clyde et al. (2011) that exploits the idea of adaptivesampling algorithms and adopts Zellner’s g-prior to perform sampling overmodel space. Its performance will be explored both using small and largesimulated data.Τεκμήριο Causal quests in aqueous research with Bayesian networks(31-08-2022) Καλαϊτζάκης, Νεκτάριος; Kalaitzakis, Nektarios; Athens University of Economics and Business, Department of Statistics; Tsagris, Michail; Ntzoufras, IoannisΤα υδατικά συστήματα χαρακτηρίζονται από υψηλή στοχαστικότητα, τεράστια πολυπλοκότητα και αβεβαιότητα. Το συνονθύλευμα αυτό ετερογενών φυσικών στοιχείων συχνά οδηγεί σε χαοτικά συστήματα τα οποία είναι εξαιρετικά δύσκολο να μοντελοποιηθούν και να προβλεφθούν με σχετική ακρίβεια. Οι κλασικές διαδικασίες μοντελοποίησης συχνά δυσκολεύονται να παρέχουν σαφείς ποσοτικές απαντήσεις, ενώ το μεγάλο πλήθος των συγχυτικών επιδράσεων πολύ συχνά οδηγεί σε παραπλανητικά συμπεράσματα, λανθασμένες αποφάσεις, κακές διαχειριστικές πρακτικές και σπατάλη κεφαλαίων. Σε αυτή τη διατριβή, υπογραμμίζουμε τη σημασία της ανάλυσης των συστημάτων αυτών μέσω της αιτιολογικής προσέγγισης και σκέψης, διερευνούμε την απόδοση τεχνικών αιτιακής μοντελοποίησης και μεθόδων όπως τα Bayesian Networks και προωθούμε την υιοθέτηση αυτών των μεθόδων ως κυρίαρχου τρόπου ανάλυσης στη λήψη αποφάσεων και στην περιβαλλοντική διαχείριση. Τα αποτελέσματα της έρευνάς μας ήταν σύμφωνα με την καθιερωμένη γνώση και την προηγούμενη έρευνα, ενώ κατέδειξε και τα ισχυρά πλεονεκτήματα της αιτιακής αναλυτικής συλλογιστικής στην έρευνα.Τεκμήριο Default prediction using machine learning methods(2023) Pavlogeorgatos, Dionysios; Παυλογεωργάτος, Διονύσιος; Athens University of Economics and Business, Department of Management Science and Technology; Karlis, Dimitrios; Chatziantoniou, Damianos; Ntzoufras, IoannisThis thesis examines parametric and non-parametric models in distinguishing between good andbad credit applicants. Additionally, the significance of input variables is assessed with twodifferent approaches (WoE and Random Forest variable’s importance) in our attempt to find theoptimal and most efficient model. Furthermore, we address the problem of imbalanced data withthe Synthetic Minority Over-Sampling technique (SMOTE), which is a widely used algorithm foraddressing class imbalance, developed by Chawla et al. (2002). The empirical study was conductedusing a data set obtained from the Kaggle website and contains information about “Home Credit”,which is an international consumer finance provider, founded in 1997 in the Czech Republic. Theinitial dataset consists of 307,511 observations and 122 different variables, which incorporatesinformation about the invoice of the applicant and the credit decision process as well asinformation about the applicant. Statistical and machine learning algorithms are employed togenerate predictions and predictive power is evaluated based on area under the ROC curve andother evaluation metrics. The four algorithms used are logistic regression, random forest, lightgbm, and naive Bayes. With an AUC value of approximately 72%, some patterns have beenidentified that can differentiate between customers that are expected to pay their loan obligationsand those that are not. The statistical logistic regression model was found to perform as well asmore sophisticated models with a limited number of inputs, regardless of the approach chosen forthe variable selection.Τεκμήριο Efficient Bayesian marginal likelihood estimation in generalised linear latent trait models(2013) Vitoratou, Vasiliki; Βιτωράτου, Βασιλική; Athens University of Economics and Business, Department of Statistics; Ntzoufras, IoannisThe term latent variable model (LVM) refers to a broad family of models which are used tocapture abstract concepts (unobserved / latent variables or factors) by means of multipleindicators (observed variables or items). The key idea is that all dependencies among pobserved variables are attributed to k unobserved ones, where k << p. That is, the LVMmethodology is a multivariate analysis technique which aims to reduce the dimensionality,with as little loss of information as possible. Most importantly, the LVMs accountfor constructs that are not directly measurable, as for instance individuals’ emotions,traits, attitudes and perceptions. In the current thesis, the LVMs are studied within theBayesian paradigm, where model evaluation is conducted on the basis of posterior modelprobabilities. A key role in this comparison is played by the models’ marginal likelihood,which is often a high dimensional integral, not available in closed form. The propertiesof the LVMs are implemented here in order to efficiently approximate the marginallikelihood.Τεκμήριο Employing Bayes factors in clinical trials(03/08/2021) Tasoulas, Anastasios K.; Τασούλας, Αναστάσιος Κ.; Athens University of Economics and Business, Department of Statistics; Demiris, Nikolaos; Papastamoulis, Panagiotis; Ntzoufras, IoannisThe goal of this dissertation is to examine how Bayes factors can be utilized for hypothesis testing in clinical trials; namely, in tests of superiority, equivalence, and non-inferiority. Bayes factors are not as popular in medical research as frequentist (classical) hypothesis testing methods, despite their many claimed advantages. A major reason for this is that frequentist inference is focused on the long-run assessment of type I and II error rates, a feature of high importance in clinical trials. We demonstrate that Bayes factors can be adapted to satisfy such a requirement as well. The sensitivity of the Bayes factor to the choice of prior distribution is also of interest. In particular, we examine the use of local versus non-local priors, as the latter have been demonstrated to provide a means of “fairer” testing by balancing the rate of evidence accumulation towards hypotheses when each are true. After analyzing the theoretical dimensions of how to implement Bayes factors in clinical trials, we perform a simulation study aimed at comparing their performance in tests of superiority, equivalence, and non-inferiority, under different settings and specifications.Τεκμήριο Estimating team possessions in Euroleague basketball competition(03/10/2021) Charamis, Evangelos I.; Χαραμής, Ευάγγελος; Athens University of Economics and Business, Department of Statistics; Karlis, Dimitrios; Papastamoulis, Panagiotis; Ntzoufras, IoannisThe focus of this thesis is to estimate the number of team possessions in each Euroleague basketball game. To achieve that goal, we construct linear regression models based on the possession formula of Justin Kubatko, Dean Oliver, Kevin Pelton and Dan T. Rosenbaum (2007). The preferred possession model will be determined according to its fit to the data, prediction accuracy and ease of use. It is important for European basketball coaches and European basketball teams in general, to have a reliable formula that can accurately estimate the number of possessions in a game. As a result, we identify that the model which best fits our requirements, is the one that sums a team’s shooting attempts from the field, turnovers and a proportion of its free throw attempts, while subtracting its offensive rebounds, for the estimation of its possessions. The same exact equation is also being currently used in the NBA. The only difference is the percentage of the free throw attempts that ends a current possession, since we discover it to be slightly higher in our data compared to that of the NBA. Thereafter, we decide to implement the possession equation in order to construct indicators to evaluate the performance of the teams. The first indicator we get to construct is the Net Rating of the teams. Per possession indicators were firstly developed by John Hollinger and Dean Oliver and are being widely used by many basketball analysts around the world, mainly using NBA data. Dean Oliver, by utilizing NBA data, identified Four Factors that a team has to control offensively and defensively in order to be successful. We, in our turn, by applying a backwards stepwise regression analysis we identify that a model with three indicators, instead of the four which Oliver identified, fits better to the data while it can also explain a statistically significant part of the variation of the teams’ win percentage. These three indicators concern the net difference of offensive and defensive True Shooting percentage, Offensive Rebound percentage and Turnover percentage. However, having already estimated the Net Rating and having examined its relationship with the teams’ win percentage, we find out that not only it is a very capable indicator to explain and predict the final ranking of the teams, but it also fits slightly better to the data compared to the model with the three indicators. On the other hand, these three indicators have more value in performance interpretation of the teams, than the Net Rating. Finally, we reduce the team possessions to individual possessions for a short analysis of player performance. After determining the player who performed best in each of the top eight team that season, based on their total points scored, minutes played and games played, along with their score in PIR, we then construct per possession indicators in order to identify the player who performed the best overall in a regular season. Metrics like the individual Offensive and Defensive Rating, Floor percentage, Usage Rate, PIR and Win Shares, were taken into account. The final conclusion was that Nando De Colo and Luka Doncic were the best overall players of the 2018-19 regular season and that Luka Doncic deserved to be the MVP. The data set concerns the regular season and playoffs games of the 2017-18, 2018-19 and 2019-20 Euroleague seasons, gathered and analysed by the developers of the newstats website and Christos Marmarinos. The data contains all the play-by-play actions and the team statistics derived from each entry. In the team statistics the developers added the possessions that actually took place in the games, by counting them one-by-one from the play-by-play data. Lastly, our working tool will be the software environment of R programming language.Τεκμήριο Evidence synthesis: from meta-analysis to network meta-analysis with an application in patients with COPDThano, Adriana; Θάνο, Αντριάνα; Athens University of Economics and Business, Department of Statistics; Ntzoufras, Ioannis; Vasdekis, VassilisEvidence synthesis methodologies become essential as more and more analyses are available for a specific research question. This dissertation has been focused on the evidence synthesis methods in healthcare, using randomized control trials (RCT) as a source of evidence. The first method described is the meta-analysis, an overall analysis to pool the treatment effect of two specific treatments being compared directly. The meta-analysis technique has two effect models, the fixed and the random effects, which their differentiation relies on a fundamental assumption over the uncertainty sources; the latter assumes between-study variance in additional to the within-study variance, which is the only source of variability in the fixed effect model. Furthermore, the indirect treatment comparisons (ITC) overcomes the limitation of the meta-analysis, making feasible the comparison of treatments without the requirement of them to be directly compared in an RCT. The ITC uses a common comparator, a treatment which has been compared with the other two treatments of interest, if both indirect and direct evidence are available a pooled estimation can be performed. The ITC and pooled effect methodologies can be considered as mixed treatment comparisons (MTC), however, since they are based on trivial mathematical equations they cannot exploit the geometry of the network made by the treatments connected. The last and most important evidence synthesis tool that has been presented is the network meta-analysis, the extension of meta-analysis. A network of multiple treatments, connected directly or indirectly by multiple studies is analyzed simultaneously by fixed or random effects. The dissertation is organized in two parts; the theory of these methods, accompanied with examples in the Bayesian and frequentist prospective for continuous outcomes, and an extensive application in network meta-analysis in patients with COPD, using a publication performed by Mapi [1]. The main scope of this thesis has been to present both in theory and application all the main steps of evidence synthesis and compare the estimations among different approaches and models. As a conclusion, the Bayesian and frequentist approaches deemed to result in approximately same estimations, with the random effects estimations in both cases providing more uncertainty around them.Τεκμήριο Fast Bayesian feature selection for high-dimensional data using mixtures of g-priors(13-12-2023) Κορωνιάδης, Κωνσταντίνος; Koroniadis, Konstantinos; Athens University of Economics and Business, Department of Statistics; Karlis, Dimitrios; Ntzoufras, Ioannis; Paroli, RobertaΗ παρούσα διπλωματική εργασία εξετάζει τον κόσμο της επιλογής μοντέλου βασιζόμενη σε Μπευζιανές τεχνικές και της περιλαμβανομένης μεταβλητής μέσα στο πλαίσιο των γραμμικών μοντέλων. Η έρευνα αναπτύσσεται με μια εξερεύνηση του πλαισίου της g − prior, περιλαμβάνοντας τον ευρύτερο κόσμο της επιλογής μοντέλου βασισμένης σε Μπευζιανές τεχνικές. Μια λεπτομερής ανάλυση του αλγορίθμου FBVS αποκαλύπτει την προσαρμοστικότητά του σε διάφορα σενάρια. Η απεικόνιση των ορίων συσχέτισης προσθέτει πρακτική αξία στην εφαρμογή του αλγορίθμου. Επιπλέον, η επέκταση του αλγορίθμου σε μείξεις της g − prior αναδεικνύει την καινοτομία και την ανθεκτικότητα στην επίλυση προβλημάτων.