Περίληψη : | Είναι κοινώς αποδεκτό ότι για την μοντελοποίηση δυαδικών ή διωνυμικών δεδομένων, η πιο συνηθισμένη επιλογή είναι η Λογιστική Παλινδρόμηση, ενώ η επικρατέστερη εναλλακτική είναι η Παλινδρόμηση Probit. Επομένως, σημείο εκκίνησης αυτής της εργασίας είναι η μεταξύ τους σύγκριση, ακόμα κι αν είναι ευρέως γνωστό ότι γενικά δίνουν παρόμοια αποτελέσματα. Για το σκοπό αυτό, κάνουμε πρώτα μια βιβλιογραφική ανασκόπηση μελετών που εξετάζουν για τυχόν διαφορές μεταξύ των logit και probit μοντέλων και στη συνέχεια εφαρμόζουμε αυτά τα μοντέλα σε πραγματικά σύνολα δεδομένων ούτως ώστε να συγκρίνουμε την απόδοση τους ως προς την επιλογή μεταβλητών και την καλή προσαρμογή. Δυστυχώς, η μεγάλη ομοιότητα τους, αν και αληθής, συχνά γενικεύεται ώστε να υποδηλώσει ότι όλα τα διωνυμικά μοντέλα είναι ισοδύναμα. Αυτή η λανθασμένη άποψη, σε συνδυασμό με την περιορισμένη βιβλιογραφία για εναλλακτικά μοντέλα πέραν των δημοφιλέστερων logit και probit, έχει οδηγήσει πολλούς ερευνητές στην αυθαίρετη υιοθέτηση μοντέλων. Τα μοντέλα logit και probit προκύπτουν χρησιμοποιώντας ως συνάρτηση σύνδεσης, την αντίστροφη της αθροιστικής συνάρτησης κατανομής της Τυπικής Λογιστικής και Κανονικής αντίστοιχα κατανομής. Μια άλλη εναλλακτική που έχει προταθεί στη βιβλιογραφία, είναι η αντικατάσταση αυτών των κατανομών με την Student t κατανομή με ν βαθμούς ελευθερίας. Έχει αποδειχθεί ότι το μοντέλο που προκύπτει έχει χρήσιμες ιδιότητες για την αντιμετώπιση αποκλινουσών παρατηρήσεων. Επιπλέον, η χρήση αυτής της κατανομής μας προσφέρει ένα ενοποιητικό πλαίσιο μοντελοποίησης, που μας επιτρέπει να θεωρήσουμε τα μοντέλα logit και probit ως μέλη μιας παραμετρικής οικογένειας μοντέλων, με τις εκτιμήσεις των παραμέτρων να καθορίζουν το συγκεκριμένο μοντέλο. Αυτό στη συνέχεια οδηγεί φυσικά στην εκτίμηση των βαθμών ελευθερίας και στη σύγκριση με τα μοντέλα logit και probit που είναι οι κατ’ εξοχήν τυπικές επιλογές. Η εργασία αυτή πραγματεύεται την εκτίμηση των βαθών ελευθερίας σε πραγματικά και προσομοιωμένα δεδομένα και διερευνά το εάν και κατά πόσο μπορεί αυτή να χρησιμοποιηθεί για να προτείνει το καταλληλότερο μοντέλο. It is commonly accepted that, when modeling binary or binomial data, the usual first choice is Logistic Regression, with its main competitor being Probit Regression. Thus, the starting point of this paper is the comparison of Logistic and Probit Regression, even though it is widely known that in general they yield similar results. For this purpose, we first review key studies found in the literature that examine potential differences between logit and probit models and then apply these models to real datasets in order to compare their performance in terms of variable selection and goodness of fit. Unfortunately, the strong similarity of logit and probit models, while true, is often generalized to imply that all binomial models are equivalent. This false belief, combined with the limited literature on alternative models besides the more popular logit and probit models, has led many researchers to adopt models arbitrarily. Logit and probit models are obtained using as link function the inverse cdf of the Standard Logistic and Normal distribution respectively. Another alternative proposed in the literature is to replace these distributions with the Student t distribution with ν degrees of freedom. It has been shown that the resulting model has useful properties when dealing with aberrant observations. In addition, the use of this distribution offer us a unifying modeling framework that allows us to consider logit and probit models as members of a parametric family of models, with parameter estimates deciding on the specific model. This then naturally leads to the estimation of degrees of freedom and the comparison with logit and probit models which are by far the standard choices. This paper addresses the estimation of degrees of freedom in real and simulated datasets and investigates whether and to what extent it can be used to suggest the appropriate model.
|
---|