Abstract : | A common problem that can occur to someone who is modelling statistical data is outliers. To be more specific, most data may follow a normal distribution, but a part of our observations are far from the rest of the observations. Outliers, or extreme values, can lead us to wrong conclusions because of the large variance they develop.Robust estimators can lead us to more reliable analyses, as they try to solve the problem of outliers. In particular, they are adjusted to the set of observations whether our data contains outliers or not.This paper will be concerned with three of the most well-known robust estimators, namely:• Fast Algorithm for the Minimum Covariance Determinant Estimator• Orthogonalised Gnanadesikan Kettering procedure• Stahel- Donoho EstimatorIn this paper, the characteristics of the above estimators will be presented, as well as their effectiveness not only in relation to a classic PCA analysis, but also between themselves.Finally, the aforementioned estimators were applied to different data sets using the R so that we can see their effect on the extreme values. Ένα συχνό πρόβλημα που παρουσιάζεται σε κάποιον που έχει σκοπό να μοντελοποιήσει στατιστικά δεδομένα είναι τα outliers. Πιο συγκεκριμένα, μπορεί τα περισσότερα δεδομένα να ακολουθούν κανονική κατανομή, αλλά ένα μέρος των παρατηρήσεων μας βρίσκεται μακριά από τις υπόλοιπες παρατηρήσεις. Τα outliers, ή αλλιώς οι ακραίες τιμές, μπορούν να μας οδηγήσουν σε λανθασμένα συμπεράσματα εξαιτίας της μεγάλης διακύμανσης που εμφανίζουν.Οι robust εκτιμητές μπορούν να μας οδηγήσουν σε πιο αξιόπιστες αναλύσεις, καθώς προσπαθούν να λύσουν το πρόβλημα των outliers. Πιο συγκεκριμένα, προσαρμόζονται στο σύνολο των παρατηρήσεων είτε τα δεδομένα μας περιέχουν outliers, είτε όχι.Στην παρούσα εργασία θα παρουσιαστούν τρεις από τους πιο γνωστούς robust εκτιμητές, που είναι οι: •Fast Algorithm for the Minimum Covariance Determinant Estimator •Orthogonalised Gnanadesikan Kettering procedure •Stahel- Donoho Estimator. Θα δούμε τα χαρακτηριστικά των παραπάνω εκτιμητών, καθώς και την αποτελεσματικότητα τους σε σχέση με μία κλασική PCA ανάλυση, αλλά και μεταξύ αυτών.Τέλος, οι εκτιμητές που αναφέρθηκαν, εφαρμόστηκαν σε διάφορα σετ δεδομένων, με τη χρήση του στατιστικού πακέτου R, έτσι ώστε να δούμε την επίδραση αυτών όσον αφορά τις ακραίες τιμές.
|
---|