Περίληψη : | The primary objective of this thesis is to investigate the efficacy of regularization techniques within the domain of clinical biostatistics. A comprehensive exploration of statistical and machine learning methodologies, including Penalization, Early Stopping, and Ensembling, is undertaken. Regularization, as defined, serves to control model complexity by incorporating additional information to address ill-posed problems or mitigate overfitting. Despite its conceptual clarity, the full extent of its applicability and diverse variants remains not entirely elucidated. Leveraging the R software, these techniques are applied to two distinct clinical datasets, both pertinent to prostate cancer research.The first dataset aims to classify patients into benign or malignant tumor categories, wherein Penalization, specifically Ridge Regression, demonstrates superior performance compared to alternative methods, achieving the lowest Misclassification Error (MCE) and highest Area Under the Curve (AUC). Furthermore, the second dataset endeavors to predict the logarithm of prostate-specific antigen (PSA), a significant biomarker, in conjunction with other clinical predictors. Once more, the penalization approach, notably Elastic Net, exhibits notable performance by yielding the lowest Mean Squared Error (MSE) and Mean Absolute Error (MAE). However, the outcomes for machine learning techniques are less promising, potentially attributable to the inherently simple data relationships or issues related to dimensionality. Overall, the study underscores the utility of regularization methods in enhancing predictive accuracy within clinical biostatistics, advocating for their broader adoption and further exploration within this domain. Ο βασικός στόχος αυτής της διατριβής είναι η εξέταση της αποτελεσματικότητας των τεχνικών κανονικοποίησης στον τομέα της κλινικής βιοστατιστικής. Πραγματοποιείται μια περιεκτική εξερεύνηση των στατιστικών και μηχανικής μάθησης μεθοδολογιών, συμπεριλαμβανομένων της τιμώρησης, της πρόωρης διακοπής και της συνδυασμένης μάθησης. Η κανονικοποίηση, όπως ορίζεται, εξυπηρετεί τον έλεγχο της πολυπλοκότητας του μοντέλου με την ενσωμάτωση επιπλέον πληροφοριών για την αντιμετώπιση ασαφών προβλημάτων ή τη μείωση του υπερ-εκπαιδευτικού φαινομένου. Παρά την έννοια της κανονικοποίησης, η πλήρης κατανόηση της εφαρμοσιμότητάς της και των διαφορετικών εκδοχών της παραμένει ακόμα μη ξεκάθαρη. Με χρήση του λογισμικού R, αυτές οι τεχνικές εφαρμόζονται σε δύο διαφορετικά κλινικά σύνολα δεδομένων, τα οποία είναι σχετικά με την έρευνα του προστάτη καρκίνου.Το πρώτο σύνολο δεδομένων στοχεύει στην ταξινόμηση των ασθενών σε καλοήθη ή κακοήθη όγκους, όπου η τεχνική τιμώρησης, και ειδικότερα η Ridge Regression, επιδεικνύει υψηλή απόδοση σε σύγκριση με τις εναλλακτικές μεθόδους, επιτυγχάνοντας το χαμηλότερο Missclassifcation Error (MCE) και την υψηλότερη Area Under the ROC Curve (AUC). Επιπλέον, το δεύτερο σύνολο δεδομένων στοχεύει στην πρόβλεψη του λογαρίθμου του ειδικού για τον προστάτη αντιγόνο (PSA), ενός σημαντικού βιοδείκτη, και την σχέση του με άλλες κλινικές μεταβλητές. Και πάλι, η μέθοδος της τιμώρησης, και ειδικότερα το Elastic Net, επιδεικνύει σημαντική απόδοση παρέχοντας το χαμηλότερα Mean Square Error (MSE) και Mean Absolute Error (MAE). Απροσδόκητα, τα αποτελέσματα για τις μεθόδους μηχανικής μάθησης δεν είναι τόσο ελπιδοφόρα, πιθανώς λόγω των απλών σχέσεων δεδομένων ή προβλημάτων που σχετίζονται με τη διάσταση. Συνολικά, η μελέτη υπογραμμίζει την χρησιμότητα των μεθόδων κανονικοποίησης στη βελτίωση της προβλεπτικής ακρίβειας στην κλινική βιοστατιστική, προωθώντας την ευρύτερη υιοθέτηση και περαιτέρω εξερεύνηση αυτών των μεθόδων σε αυτόν τον τομέα.
|
---|