Περίληψη : | Στόχος της παρούσας διπλωματικής είναι η ανάλυση και η εφαρμογή αλγορίθμων στατιστικής, μηχανικής μάθησης και Μπεϋζιάνης μηχανικής μάθησης σε δεδομένα γενετικής που αφορούν τον καρκίνο του μαστού. Αρχικά χρησιμοποιήθηκε το κλασικό μοντέλο λογιστικής παλινδρόμησης στο οποίο εφαρμόστηκαν οι τεχνικές συρρίκνωσης lasso και ελαστικού διχτυού. Όσον αφορά τις τεχνικές μηχανικής μάθησης εφαρμόστηκαν οι αλγόριθμοι: (α) Μηχανές Διανύσματων Υποστήριξης (Support Vector Machines, SVM), (β) Τυχαίου Δάσους (Random Forest, RF) και (γ) Ακραίας Ενίσχυσης Κλίσης (XGBoost).Από την ανάλυσή μας προέκυψε ότι ο αλγόριθμος τυχαίου δάσους έχει αρκετά καλύτερη προβλεπτική ικανότητα στο συγκεκριμενο πρόβλημα με ακρίβεια 92,5%, ευαισθησία 79% και AUC 89,5% έναντι 60-75% ακρίβεια για τους άλλους δύο αλγορίθμους και τα λογιστικά μοντέλα με μεταβλητές επιλεγμένες βάσει των τεχνικών συρρίκνωσης, που είχαν και σημαντικά μειωμένο δείκτη ευαισθησίας. Στην συνέχεια, εξετάστηκαν και εφαρμόστηκαν οι αλγόριθμοι Μπεϋζιανής στατιστικής και μηχανικής μάθησης. Συγκεκριμένα, χρησιμοποιήθηκαν στο μοντέλο λογιστικής παλινδρόμησης οι τεχνικές: 1) Μπεϋζιανή εφαρμογή του Lasso (Bayesian lasso)2) Μπεϋζιανή επιλογή μεταβλητών α) με τον δειγματολήπτη Gibbs (Gibbs variable selection, GVS) και β) τον αλγόριθμο στοχαστικής αναζήτησης επιλογης μεταβλητών (Stochastic Search Variable Selection, SSVS)Με τις τεχνικές αυτές σκοπός ήταν ο εντοπισμός των σημαντικών κλινοπαθολογικών και γενετικών παραγόντων που επηρεάζουν την κατάληξη από τον καρκίνο του μαστού σε συνδυασμό με την καλή προβλεπτική ικανότητα του μοντέλου.Από την ανάλυση αυτή προέκυψε ότι οι μεταβλητές 1) αριθμός θετικών λεμφαδένων 2) το γονίδιο sik1 3) ο προγνωστικός δείκτης Nottingham μετά την χειρουργική επέμβαση, και 4) το μέγεθος του όγκου είναι οι πιο σημαντικές με συμφωνία μεταξύ των διαφορετικών μεθόδων τουλάχιστον 83%. Αξιολογείται και η προβλεπτική ικανότητα των Μπεϋζιανών αλγορίθμων με τον GVS να αναδεικνύεται ο καλύτερος με ευαισθησία 60%.Τέλος, μεταξύ του αλγορίθμου Τυχαίου Δάσους που αναδείχθηκε ο καλύτερος των τεχνικών μηχανικής μάθησης και του GVS που ήταν αντίστοιχα ο καλύτερος των αλγορίθμων Μπεϋζιανής στατιστικής, ο πρώτος φαίνεται να είναι καταλληλότερος για το συγκεκριμένο πρόβλημα. Ο δείκτης ευαισθησίας είναι σημαντικά υψηλός (79%), είναι ταχύτερος και εύκολα εφαρμόσιμος καθώς δεν απαιτείται ο προσδιορισμός των εκ των προτέρων κατανομών. The aim of this thesis is to analyze and apply statistical, machine learning and Bayesian machine learning algorithms to breast cancer genetics data. For the first phase of the analysis, the classical logistic regression model was used to which the lasso and elastic net shrinkage techniques were applied. With regards to machine learning techniques, the algorithms (a) Support Vector Machines (SVM), (b) Random Forest (RF) and (c) Extreme Gradient Boosting (XGBoost) were applied.Our analysis revealed that in the aforementioned application the Random Forest algorithm has significantly better predictive ability with 92.5% accuracy, 79% sensitivity and 89.5% AUC compared to 60-75% accuracy of the other two algorithms and the logistic models with variables derived from shrinkage techniques, which also showed a significantly reduced sensitivity index. Next, the Bayesian statistical and machine learning algorithms were tested and applied. Specifically, for the logistic regression model the following techniques were used: 1) Bayesian lasso application (Bayesian lasso)2) Bayesian variable selection (a) with the Gibbs sampler (Gibbs variable selection (GVS) and (b) Stochastic Search Variable Selection (SSVS) algorithmThe aim of these techniques was to identify the significant clinicopathological and genetic factors that influence breast cancer outcomes in combination with the good predictive ability of the model.This analysis revealed that the variables 1) number of positive lymph nodes 2) the sik1 gene 3) the Nottingham prognostic index after surgery, and 4) the size of the tumor are the most significant with an agreement level of minimum 83% between the different methods. The predictive ability of Bayesian algorithms is also evaluated with GVS emerging as the best with a sensitivity of 60%.Finally, the Random Forest algorithm which emerged as the best of the machine learning techniques, seems to be more suitable for this problem compared to GVS which was respectively the best of the Bayesian statistics algorithms, as its sensitivity index is significantly high (79%). Moreover, it is faster and easy to implement as it does not require the determination of prior distributions.
|
---|