Abstract : | Τα αριθμητικά δεδομένα από μετρήσεις χρησιμοποιούνται σε μια τεράστια ποικιλία επιστημονικών πεδίων. Στην πράξη, υπάρχουν περιπτώσεις συνόλων δεδομένων που περιέχουν πολύ μεγάλο αριθμό μηδενικών παρατηρήσεων σε σχέση με τις μη μηδενικές παρατηρήσεις. Για παράδειγμα, η ζήτηση για ιατρική περίθαλψη – όπως αποτυπώνεται από τον αριθμό των επισκέψεων εξωτερικών ασθενών σε ιατρεία και νοσοκομεία. Οι υπερβολικά πολλές μηδενικές παρατηρήσεις τείνουν να μην ενσωματώνονται επαρκώς και να μην επεξηγούνται από τις συνήθεις κατανομές όπως η Poisson, η διωνυμική και η αρνητική διωνυμική κατανομή. Επιπλέον, τα δεδομένα από μετρήσεις συχνά προκύπτουν σε συνδυασμό με επεξηγηματικές μεταβλητές. Σε αυτή τη διατριβή, διερευνούμε κατανομές όπως οι Zero-Inflated και Hurdle για μοντελοποίηση δεδομένων μέτρησης με υπερβολικά μηδενικά. Ένα Zero-Inflated μοντέλο είναι ένα στατιστικό μοντέλο που βασίζεται σε μίξη κατανομών με δύο components, ένα μηδενικό και ένα count component. Κάτω από αυτό το πλαίσιο, μια μηδενική παρατήρηση θα μπορούσε να προκύπτει από οποιοδήποτε component της μίξης, αλλά μια μη μηδενική παρατήρηση θα μπορούσε να προκύψει μόνο από την count κατανομή. Το μοντέλο Hurdle αποτελείται επίσης από δύο ξεχωριστά μέρη, ένα μέρος που περιλαμβάνει μόνο τα μηδενικά, το οποίο μοντελοποιεί τα μηδενικά στα δεδομένα, και ένα count μέρος το οποίο περιλαμβάνει και περιγράφει μόνο τις μη μηδενικές παρατηρήσεις. Οι κατανομές Zero-inflated και Hurdle μπορούν να πραγματοποιηθούν στο πλαίσιο γενικευμένων γραμμικών μοντέλων για την ενσωμάτωση επεξηγηματικών μεταβλητών, όταν αυτές είναι διαθέσιμες. Διερευνούμε τα Zero-Inflated και Hurdle μοντέλα παλινδρόμησης και εξετάζουμε την επιλογή του καλύτερου μοντέλου στο πλαίσιο πραγματικών δεδομένων. Για τις εφαρμογές που εξετάζονται, η επιλογή του τελικού μοντέλου έγινε με τη διερεύνηση της σχετικής καλής προσαρμογής των μοντέλων. Το Zero-Inflated αρνητικό διωνυμικό μοντέλο, το οποίο ήταν το καλύτερο για τα συγκεκριμένα σύνολα δεδομένων, ταιριάζει περισσότερο από το αντίστοιχο Hurdle μοντέλο, καθώς οι διαφορετικοί τύποι μηδενικών, δομικά και δειγματοληπτικά μηδενικά, λαμβάνονται υπόψη. Count data arise in a vast variety of scientific fields. In practice, there are cases of count data that contain an excess amount of zero observations relative to the non-zero observations. For example, the demand for medical care – as captured by the number of physician/non-physician office and hospital outpatient visits. The excessive zero observations tend to not be sufficiently absorbed and explained by common count distributions such as the Poisson, binomial and negative binomial. In addition, count data often arise in combination with explanatory variables. In this dissertation, we explore Zero-Inflated and Hurdle distributions to model count data with excess zeros. A zero-inflated model is a statistical model based on a two-component mixture distribution involving a zero and a count component. Under this framework, a zero observation could arise from either component of the mixture, but a non-zero observation could only arise from the count distribution. The Hurdle model also consists of two separate parts, a zero only part, which models the zeros in the data, and a zero-truncated count part which describes the non-zero observations. Zero-inflated and Hurdle distributions can be cast in a generalized linear model framework to incorporate explanatory variables, when these are available. We review zero-inflated and hurdle regression models and consider their model selection in the context of real data. For the applications considered, the selection of the final model was made by investigating relative goodness-of-fit of the models. The zero-inflated negative binomial model, which was the best fit for the data setsexamined, makes more sense to fit than the hurdle model as the different types of zeros, structural and sampling, are accounted for.
|
---|