Abstract : | Οι ελλιπείς τιμές έχουν αναδειχθεί σε ένα σημαίνον προς διαχείριση πρόβλημα, προκειμένου να επιτευχθεί η αξιοπιστία στην ανάλυση δεδομένων. Υπάρχουν ποικίλοι λόγοι για τους οποίους οι ελλιπείς τιμές μπορεί να εμφανίζονται σε ένα σύνολο δεδομένων, όπως η απουσία ή απροθυμία απαντήσεων, τιμές που ενδέχεται να έχουν διαγραφεί ή χαθεί και λάθος μετρήσεις. Οι μέθοδοι αντικατάστασης ελλιπών τιμών παρέχουν λύσεις, ώστε να επιτευχθεί η αποτελεσματική διαχείριση συνόλων δεδομένων με ελλιπείς τιμές. Η πολλαπλή αντικατάσταση ελλιπών τιμών είναι μία εξελιγμένη και μοντέρνα μέθοδος διαχείρισης αυτών των ελλιπών τιμών στη στατιστική ανάλυση. Ο κύριος στόχος της παρούσης έρευνας είναι να διερευνηθεί η αποτελεσματικότητα της μεθόδου MICE. Η εν λόγω μέθοδος παρουσιάζει αξιόπιστα αποτελέσματα σε μεγάλα και σύγχρονα σύνολα δεδομένων , χρησιμοποιώντας το πακέτο της R, ως εργαλείο στη σύγχρονη στατιστική ανάλυση. Στην παρούσα έρευνα χρησιμοποιούμε ένα πλήρες σύνολο δεδομένων και δημιουργούμε τεχνητά ελλιπείς τιμές σε μία μεταβλητή. Προκειμένου να αντικατασταθούν οι ελλιπείς τιμές, συγκρίνουμε τη μέθοδο MICE με τη Μέση Τιμή (Mean) και τη μέθοδο KNN και αξιολογούμε τα αποτελέσματα με τις κατάλληλες μεθόδους αξιολόγησης. Γίνεται σύγκριση των συνόλων δεδομένων με ποσοστό ελλείψεων για μία μεταβλητή από 5% έως 50%, χρησιμοποιώντας τις ως άνω τρείς αναφερόμενες μεθόδους (Mean, MICE, KNN). Τα αποτελέσματα αναδεικνύουν την μέθοδο αντικατάστασης ελλιπών τιμών MICE ως την πλέον αποτελεσματική, σε σύγκριση με τη μέθοδο της Μέσης Τιμής και τη μέθοδο KNN, στο παρόν σύνολο δεδομένων. Η MICE έχει στατιστικό υπόβαθρο και παρέχει βέλτιστα αποτελέσματα στο πρόβλημα της αντικατάστασης ελλιπών τιμών. Missing values have emerged as a really important problem to be handled with, in order to achieve reliability in data analysis. There are many reasons why missing values may appear in a data set, such as lack of responses, values which are deleted and errors in measurement. Imputation methods provide solutions, in order to run incomplete datasets. Multiple imputation is an advanced and modern method for handling these missing values in data analysis. The main goal of this study is to research the efficiency of MICE method (Multiple Imputation by Chained Equations). MICE performs reliable results to large imputation procedures, by using R package as a tool in modern statistical research. In the following research we use a complete dataset and create missing values in a variable. In order to impute the missing values, we compare MICE method with Mean (basic statistical technique) and KNN (K-Nearest Neighbors – Machine learning technique) method as well, and we evaluate the results with MAE( Mean Absolute Error) and RMSE(Root Mean Square Error). We compare datasets with missingness rates in one variable, between 5% and 50%, using the above mentioned methods (Mean, MICE, KNN). The results demonstrate that MICE imputation method is the most efficient in comparison to Mean and KNN method in this dataset. MICE has statistical background and provides optimization in imputation results.
|
---|