Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας

Μόνιμο URI για αυτήν την κοινότηταhttps://pyxida.aueb.gr/handle/123456789/2

Η Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας περιλαμβάνει τα Τμήματα: - Τμήμα Πληροφορικής - Τμήμα Στατιστικής

Περιήγηση

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω

Τώρα δείχνει 1 - 9 από 9

Analysis of supermarket sales data using independent mixture and hidden Markov models
(2018-06-29) Asimaki, Kyriaki; Ασημάκη, Κυριακή; Kyriakidis, Epaminondas; Psarakis, Stelios; Athens University of Economics and Business, Department of Statistics; Besbeas, Panagiotis
This thesis deals with unbounded count data. The most common distribution for modeling such data is the Poisson distribution. However, in many real-world situations the sample variance is greater than the sample mean and observations are dependent like the data set which we analyze, namely weekly soap sales. First to deal with these problems, we use independent mixture models with Poisson, negative binomial and combinations of Poisson and negative binomial components which we term hybrid models. We demonstrate standard error and confidence interval estimation from hybrid models using asymptotic theory. Subsequently, we use Poisson and negative binomial hidden Markov models. These models are a popular approach for modeling sequential data and are based on Markov chain assumptions of a first or higher-order.Lastly, we compare results and demonstrate standard error estimation of hidden Markov models which are selected and corresponding confidence intervals with the bootstrap method.
Big Data Bootstrap
(2024-02-12) Μπασάρης, Γιώργος; Basharis, Jorgos; Athens University of Economics and Business, Department of Statistics; Yannacopoulos, Athanasios; Vrontos, Ioannis; Besbeas, Panagiotis
Το Bag of Little Bootstraps (BLB) είναι μια τεχνική που συνδικάζει τις δυνατότητες της bootstrap μεθόδου και της υπό-δειγματοληψίας. Στις μέρες μας όπου τα δεδομένα είναι μεγάλων διαστάσεων η παραδοσιακή μέθοδος του Bootstrap υστερεί στο να κάνει υπολογισμούς. Η επιτυχία της BLB έγκειται στο να συγκρατεί τα μικρά σακουλάκια από τα δεδομένα, επιτρέποντάς μας να αναλύουμε χωρίς να κολλάμε από το τεράστιο μέγεθος. Η παρούσα έρευνα παρουσιάζει μια σχολαστική συγκριτική ανάλυση μεταξύ της παραδοσιακής μεθοδολογίας Bootstrap και της μεθοδολογίας Bag of Little Bootstraps (BLB), δίνοντας έμφαση στην ακρίβεια και την υπολογιστική αποδοτικότητα. Ξεκινώντας με μια εμπεριστατωμένη βιβλιογραφική ανασκόπηση, η μελέτη θέτει μια στέρεη θεωρητική βάση και για τις δύο προσεγγίσεις και διερευνά περίπλοκα τις αλγοριθμικές αποχρώσεις της BLB. Χρησιμοποιώντας μια προσομοιωμένη μελέτη που αναπαράγει ποικίλες συνθήκες του πραγματικού κόσμου, ορίζουμε μετρικές απόδοσης για τη συστηματική αξιολόγηση κάθε μεθοδολογίας. Τα ευρήματά μας αναδεικνύουν την υπεροχή της BLB, αποδίδοντας σταθερά στενότερα διαστήματα εμπιστοσύνης, ενδεικτικά αυξημένης ακρίβειας. Η έρευνα υπογραμμίζει τα μετασχηματιστικά κέρδη της BLB στην υπολογιστική αποδοτικότητα, ιδιαίτερα αξιοσημείωτα με μεγαλύτερες τιμές γ. Τοποθετημένο ως παράδειγμα λήψης αποφάσεων, το BLB εξισορροπεί την ακρίβεια με την υπολογιστική αποδοτικότητα, συμβάλλοντας σε μεθοδολογικές εξελίξεις στις τεχνικές Bootstrap. Η μελέτη αυτή σηματοδοτεί ένα κομβικό ορόσημο, προσφέροντας πολύτιμες γνώσεις για τους επαγγελματίες και εμπνέοντας μελλοντικές εξερευνήσεις.
Capture re-capture techniues for estimating the species richness
(2018) Tsaloukidis Alexander Oleg; Τσαλουκίδης, Αλέξανδρος Όλεγκ; Athens University of Economics and Business, Department of Statistics; Besbeas, Panagiotis
The number of species in a biological community, usually referred to as species richness, represents the simplest and most direct indicator of ecological diversity. Since scientists cannot detect each plant or animal in a region, species richness is an unknown parameter of the community under study. This project proposes a new method for estimating species richness based on the stochastic approach and models.
A comparison of Logit and Probit models within the Student t family
(2024-10-18) Στρούγγης, Δημήτριος; Stroungis, Dimitrios; Athens University of Economics and Business, Department of Statistics; Vrontos, Ioannis; Pateras, Konstantinos; Besbeas, Panagiotis
Είναι κοινώς αποδεκτό ότι για την μοντελοποίηση δυαδικών ή διωνυμικών δεδομένων, η πιο συνηθισμένη επιλογή είναι η Λογιστική Παλινδρόμηση, ενώ η επικρατέστερη εναλλακτική είναι η Παλινδρόμηση Probit. Επομένως, σημείο εκκίνησης αυτής της εργασίας είναι η μεταξύ τους σύγκριση, ακόμα κι αν είναι ευρέως γνωστό ότι γενικά δίνουν παρόμοια αποτελέσματα. Για το σκοπό αυτό, κάνουμε πρώτα μια βιβλιογραφική ανασκόπηση μελετών που εξετάζουν για τυχόν διαφορές μεταξύ των logit και probit μοντέλων και στη συνέχεια εφαρμόζουμε αυτά τα μοντέλα σε πραγματικά σύνολα δεδομένων ούτως ώστε να συγκρίνουμε την απόδοση τους ως προς την επιλογή μεταβλητών και την καλή προσαρμογή. Δυστυχώς, η μεγάλη ομοιότητα τους, αν και αληθής, συχνά γενικεύεται ώστε να υποδηλώσει ότι όλα τα διωνυμικά μοντέλα είναι ισοδύναμα. Αυτή η λανθασμένη άποψη, σε συνδυασμό με την περιορισμένη βιβλιογραφία για εναλλακτικά μοντέλα πέραν των δημοφιλέστερων logit και probit, έχει οδηγήσει πολλούς ερευνητές στην αυθαίρετη υιοθέτηση μοντέλων. Τα μοντέλα logit και probit προκύπτουν χρησιμοποιώντας ως συνάρτηση σύνδεσης, την αντίστροφη της αθροιστικής συνάρτησης κατανομής της Τυπικής Λογιστικής και Κανονικής αντίστοιχα κατανομής. Μια άλλη εναλλακτική που έχει προταθεί στη βιβλιογραφία, είναι η αντικατάσταση αυτών των κατανομών με την Student t κατανομή με ν βαθμούς ελευθερίας. Έχει αποδειχθεί ότι το μοντέλο που προκύπτει έχει χρήσιμες ιδιότητες για την αντιμετώπιση αποκλινουσών παρατηρήσεων. Επιπλέον, η χρήση αυτής της κατανομής μας προσφέρει ένα ενοποιητικό πλαίσιο μοντελοποίησης, που μας επιτρέπει να θεωρήσουμε τα μοντέλα logit και probit ως μέλη μιας παραμετρικής οικογένειας μοντέλων, με τις εκτιμήσεις των παραμέτρων να καθορίζουν το συγκεκριμένο μοντέλο. Αυτό στη συνέχεια οδηγεί φυσικά στην εκτίμηση των βαθμών ελευθερίας και στη σύγκριση με τα μοντέλα logit και probit που είναι οι κατ’ εξοχήν τυπικές επιλογές. Η εργασία αυτή πραγματεύεται την εκτίμηση των βαθών ελευθερίας σε πραγματικά και προσομοιωμένα δεδομένα και διερευνά το εάν και κατά πόσο μπορεί αυτή να χρησιμοποιηθεί για να προτείνει το καταλληλότερο μοντέλο.
Hidden Markov and semi-Markov models for count time series
(2022-06-17) Chorianopoulos, Vasilis; Χωριανόπουλος, Βασίλης; Athens University of Economics and Business, Department of Statistics; Vrontos, Ioannis; Pavlopoulos, Charalampos; Besbeas, Panagiotis
Hidden Markov models (HMMs) are models in which the distributionthat generates an observation depends on the state of an underlying and unobserved Markov process. HMMs have been employed in a variety of areas, including signal processing, bioinformatics, environment and ecology, and are noted for their flexibility and computational efficiency. In an HMM’sbasic model formulation, the consecutive time points spent in each state, called the dwell time, follows a geometric distribution. This assumption is mathematically and computationally very convenient and allows for an efficient likelihood evaluation and inference, however in some applications may be too restrictive or inappropriate. Hidden semi-Markov models (HSMMs)generalize hidden Markov models by allowing the dwell time in each state to follow any distribution on the positive integers. This generalization comes at a cost, since the likelihood evaluation is not straightforward. For that reason, a strategy of fitting HSMMs by using an HMM to represent the HSMM of interest is shown. With this way, the whole HMM methodology becomes applicable to the more general class of HSMMs. The approach is illustrated using a real data set on yearly counts of major earthquakes in the world. A variety of standard discrete parametric distributions for the dwell times is examined, such as the shifted Poisson or negative binomial, and the relative performance of HMMs and HSMMs is investigated.
Higher order hidden Markov models for time series
(2021) Skapera, Antonia; Σκαπέρα, Αντωνία; Athens University of Economics and Business, Department of Statistics; Livada, Alexandra; Vrontos, Ioannis; Besbeas, Panagiotis
A hidden Markov model (HMM) is a statistical model in which the system being modelled is assumed to be a Markov process with unobservable (hidden) states. HMMs have found application in a wide variety of disciplines, ranging from signal processing and engineering to finance and the environment. Typically the underlying Markov process in a HMM is assumed to be first-order. We consider the use of higher-order HMMS accommodating longer-range Markov dependence. We focus on second-order dependence, and employ an approach that transforms a second-order HMM into an equivalent first-order. The approach is general to any order, and opens the way to estimating higher order HMMs using standard techniques for first-order models. Despite the theoretical appeal of higher-order HMMs, their larger number of parameters can be detrimental to their performance in practice. We explore this issue, illustrating their practical utility using real world applications. In the first application we consider a binary time-series based on the Old Faithful geyser data. We fit first-and second-order HMMs and choose between them using information criteria. In the second application we consider a famous count time series reflecting the annual number of major earthquakes that happened globally between1900 and 2006. We fit first-and second-order HMMs when the state distribution, the number of latent states, and the nature of the serial dependence, including the true order, are unknown. Because of the highly increasing number of parameters, we explore parameter reduction through fitting mixture transition distribution (MTD) models, which allow second-order dependence, but use less parameters. We compare different models and specifications using information criteria to choose which models fits better the data. Finally, we perform a simulation study using the earthquakes data set, comparing first- and second-order HMMs and MTD- second order HMMs. We conclude that there are differences between the estimated parameters of these models.
Regression models for count data with excess zeros
(2023-01-25) Φλωροπούλου, Ζωή; Floropoulou, Zoi; Athens University of Economics and Business, Department of Statistics; Vrontos, Ioannis; Psarakis, Stelios; Besbeas, Panagiotis
Τα αριθμητικά δεδομένα από μετρήσεις χρησιμοποιούνται σε μια τεράστια ποικιλία επιστημονικών πεδίων. Στην πράξη, υπάρχουν περιπτώσεις συνόλων δεδομένων που περιέχουν πολύ μεγάλο αριθμό μηδενικών παρατηρήσεων σε σχέση με τις μη μηδενικές παρατηρήσεις. Για παράδειγμα, η ζήτηση για ιατρική περίθαλψη – όπως αποτυπώνεται από τον αριθμό των επισκέψεων εξωτερικών ασθενών σε ιατρεία και νοσοκομεία. Οι υπερβολικά πολλές μηδενικές παρατηρήσεις τείνουν να μην ενσωματώνονται επαρκώς και να μην επεξηγούνται από τις συνήθεις κατανομές όπως η Poisson, η διωνυμική και η αρνητική διωνυμική κατανομή. Επιπλέον, τα δεδομένα από μετρήσεις συχνά προκύπτουν σε συνδυασμό με επεξηγηματικές μεταβλητές. Σε αυτή τη διατριβή, διερευνούμε κατανομές όπως οι Zero-Inflated και Hurdle για μοντελοποίηση δεδομένων μέτρησης με υπερβολικά μηδενικά. Ένα Zero-Inflated μοντέλο είναι ένα στατιστικό μοντέλο που βασίζεται σε μίξη κατανομών με δύο components, ένα μηδενικό και ένα count component. Κάτω από αυτό το πλαίσιο, μια μηδενική παρατήρηση θα μπορούσε να προκύπτει από οποιοδήποτε component της μίξης, αλλά μια μη μηδενική παρατήρηση θα μπορούσε να προκύψει μόνο από την count κατανομή. Το μοντέλο Hurdle αποτελείται επίσης από δύο ξεχωριστά μέρη, ένα μέρος που περιλαμβάνει μόνο τα μηδενικά, το οποίο μοντελοποιεί τα μηδενικά στα δεδομένα, και ένα count μέρος το οποίο περιλαμβάνει και περιγράφει μόνο τις μη μηδενικές παρατηρήσεις. Οι κατανομές Zero-inflated και Hurdle μπορούν να πραγματοποιηθούν στο πλαίσιο γενικευμένων γραμμικών μοντέλων για την ενσωμάτωση επεξηγηματικών μεταβλητών, όταν αυτές είναι διαθέσιμες. Διερευνούμε τα Zero-Inflated και Hurdle μοντέλα παλινδρόμησης και εξετάζουμε την επιλογή του καλύτερου μοντέλου στο πλαίσιο πραγματικών δεδομένων. Για τις εφαρμογές που εξετάζονται, η επιλογή του τελικού μοντέλου έγινε με τη διερεύνηση της σχετικής καλής προσαρμογής των μοντέλων. Το Zero-Inflated αρνητικό διωνυμικό μοντέλο, το οποίο ήταν το καλύτερο για τα συγκεκριμένα σύνολα δεδομένων, ταιριάζει περισσότερο από το αντίστοιχο Hurdle μοντέλο, καθώς οι διαφορετικοί τύποι μηδενικών, δομικά και δειγματοληπτικά μηδενικά, λαμβάνονται υπόψη.
Use of linear and multinomial models in football transfers
(2024-10-18) Φαλιάγκας, Σταύρος-Δημήτριος; Faliagkas, Stavros-Dimitrios; Athens University of Economics and Business, Department of Statistics; Vrontos, Ioannis; Pateras, Konstantinos; Besbeas, Panagiotis
Ο πρωταρχικός στόχος αυτής της διατριβής είναι η κατασκευή ενός εξελιγμένου μοντέλου σχεδιασμένου να βοηθά τις επαγγελματικές ομάδες ποδοσφαίρου στην επιλογή του καταλληλότερου παίκτη για συγκεκριμένες θέσεις κατά τη διαδικασία μεταγραφής. Αυτό το μοντέλο θα αναλύσει και θα αξιολογήσει ένα ολοκληρωμένο σύνολο δεδομένων, προσαρμοσμένων στις ιδιαίτερες απαιτήσεις και χαρακτηριστικά κάθε θέσης. Οι βασικές μεταβλητές σε αυτήν την ανάλυση θα περιλαμβάνουν την αγοραία αξία του παίκτη, η οποία αντικατοπτρίζει την αντιληπτή αξία του στην τρέχουσα μεταγραφική αγορά, καθώς και την ηλικία του, που μπορεί να επηρεάσει τις δυνατότητες του για εξέλιξη, εμπειρία και μακροζωία σταδιοδρομίας. Η διατριβή θα εμβαθύνει σε διάφορες μετρήσεις απόδοσης και χαρακτηριστικά που είναι κρίσιμα για τους αριστερούς κεντρικούς αμυντικούς. Αυτά μπορεί να περιλαμβάνουν αμυντικές δεξιότητες όπως τάκλιν, αναχαίτιση και μαρκάρισμα, καθώς και σωματικά χαρακτηριστικά όπως ταχύτητα, δύναμη και ευκινησία. Επιπλέον, θα ληφθούν υπόψη τεχνικές δεξιότητες όπως η ακρίβεια της πάσας, ο έλεγχος της μπάλας και η ικανότητα να παίζεις υπό πίεση. Το μοντέλο θα λαμβάνει επίσης υπόψη παράγοντες όπως η εμπειρία του παίκτη σε κορυφαία πρωταθλήματα, το ιστορικό τραυματισμών και η προσαρμοστικότητά του σε διαφορετικά στυλ παιχνιδιού και συστήματα τακτικής. Συμπερασματικά, η παρούσα διατριβή προσπαθεί να γεφυρώσει το χάσμα μεταξύ της ανάλυσης δεδομένων και της πρακτικής εφαρμογής στο επαγγελματικό ποδόσφαιρο. Εστιάζοντας στον εξειδικευμένο αλλά κρίσιμο ρόλο των αριστερών κεντρικών αμυντικών, επιδιώκει να προσφέρει πολύτιμες γνώσεις και μεθοδολογίες που μπορούν να επεκταθούν σε άλλες θέσεις και πτυχές της αξιολόγησης των παικτών στο μέλλον. Αυτή η εργασία όχι μόνο θα συμβάλει στον ακαδημαϊκό τομέα της αθλητικής ανάλυσης, αλλά θα έχει επίσης απτό αντίκτυπο στις επιχειρησιακές στρατηγικές των επαγγελματικών ποδοσφαιρικών συλλόγων.
The use of the bootstrap method for the assessment of investment effectiveness and risk
(2023-09-13) Χρονοπούλου, Παναγιώτα; Chronopoulou, Panagiota; Athens University of Economics and Business, Department of Statistics; Yannacopoulos, Athanasios; Vrontos, Ioannis; Besbeas, Panagiotis
Ο σκοπός αυτής της διατριβής είναι να εξεταστεί η εφαρμογή της μεθόδου της Bootstrap όσον αφορά την αξιολόγηση της αποτελεσματικότητας και του κινδύνου επένδυσης σε ένα χαρτοφυλάκιο που αποτελείται από μετοχές της Ferrari. Αυτό επιτεύχθηκε μέσω της χρήσης δύο μη παραμετρικών υλοποιήσεων της Bootstrap, με τις οποίες υπολογίστηκε με τέσσερα διαφορετικά διαστήματα εμπιστοσύνης (Normal interval, bootstrap-t interval, Percentile interval και Bias-corrected and Accelerated (BCa) interval) το Sharpe ratio, το οποίο συγκρίνει την απόδοση μιας επένδυσης με τον κίνδυνό της. Η χρήση της μη παραμετρικής υλοποίησης επιλέχτηκε για να αποφευχθούν παραμετρικές υποθέσεις για την κατανομή των δεδομένων.Συγκεκριμένα, η πρώτη υλοποίηση περιλαμβάνει τη λεπτομερή εφαρμογή των στατιστικών τύπων του μοντέλου, με σκοπό την καλύτερη εξοικείωση με τη μέθοδο Bootstrap. Αντίθετα, η δεύτερη υλοποίηση χρησιμοποιεί έτοιμες εντολές της R (π.χ. boot, boot.ci) για να μειώσει τον χρόνο υλοποίησης και να αποφύγει πιθανά σφάλματα. Τα δεδομένα που χρησιμοποιήθηκαν ήταν είτε τα αρχικά δεδομένα αδιαφορώντας για το ότι δεν είναι ανεξάρτητα είτε με την τεχνική thinning ώστε να μειωθεί η αυτοσυσχέτιση τους.Τα αποτελέσματα αναλύθηκαν στη συνέχεια προκειμένου να καθοριστεί η συνολική αξιοπιστία της μεθόδου της Bootstrap και στις δυο υλοποιήσεις, χρησιμοποιώντας το coverage probability, όπου έδειξε ότι και οι δύο υλοποιήσεις ήταν κοντά στο 95% που ζητούνταν. Όσον αφορά την αποτελεσματικότητα των επενδύσεων, τα αποτελέσματα υποδεικνύουν ότι ένα χαρτοφυλάκιο που αποτελείται αποκλειστικά από μετοχές της πολυτελούς αυτοκινητοβιομηχανίας θεωρείται υψηλά κινδυνώδες και απαιτεί υψηλή ανοχή στον κίνδυνο από τον επενδυτή.

Περιήγηση

Πλοήγηση Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας ανά Επιβλέποντα "Besbeas, Panagiotis"