Microarray data analysis
Φόρτωση...
Ημερομηνία
2025-03-13
Συγγραφείς
Κασιάν-Παναγιωτοπούλου, Αλίνα
Kasian-Panagiotopoulou, Alina
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων
Διαθέσιμο από
Περίληψη
Η τεχνολογία μικροσυστοιχιών έχει φέρει επανάσταση στον τομέα της γονιδιωματικής, επιτρέποντας την ποσοτική μέτρηση των επιπέδων έκφρασης χιλιάδων γονιδίων σε ένα μόνο πείραμα. Αυτή η τεχνολογία υψηλής διαπερατότητας υπήρξε καθοριστική για την κατανόηση βιολογικών διεργασιών, την αναγνώριση βιοδεικτών για ασθένειες και τη μελέτη μοριακών μονοπατιών πολλών καταστάσεων. Ωστόσο, η ανάλυση δεδομένων μικροσυστοιχιών, αν και εξαιρετικά ισχυρή, συνοδεύεται από σοβαρά στατιστικά προβλήματα λόγω της υψηλής διάστασης των δεδομένων, της εγγενούς μεταβλητότητας και της ανάγκης για ανθεκτικές μεθόδους που να μπορούν να εξάγουν ουσιαστικές βιολογικές πληροφορίες.
Μία από τις σημαντικότερες προκλήσεις στην ανάλυση δεδομένων μικροσυστοιχιών είναι αυτή των πολλαπλών υποθέσεων. Με χιλιάδες γονίδια να εξετάζονται ταυτόχρονα για διαφορική έκφραση, η εφαρμογή παραδοσιακών στατιστικών μεθόδων οδηγεί σε αύξηση των ψευδώς θετικών ευρημάτων, γεγονός που καθιστά αναγκαία τη χρήση διορθώσεων που εξισορροπούν το πλήθος των ψευδών ανακαλύψεων με τη στατιστική ισχύ. Η προσέγγιση του Ρυθμού Ψευδών Ανακαλύψεων (False Discovery Rate - FDR) των Benjamini και Hochberg (1995) αποτελεί μία από τις πιο διαδεδομένες μεθόδους για τη ρύθμιση των ψευδών θετικών αποτελεσμάτων και την επίτευξη υψηλής ευαισθησίας. Στην παρούσα διπλωματική εργασία εξετάζονται διάφορες μέθοδοι ελέγχου πολλαπλών υποθέσεων, από τις ιδιαίτερα συντηρητικές παραδοσιακές προσεγγίσεις όπως η διόρθωση Bonferroni έως τις πλέον σύγχρονες και εξελιγμένες στρατηγικές βασισμένες στο FDR, και αξιολογείται η εφαρμογή τους σε δεδομένα μικροσυστοιχιών.
Ένα ακόμη κεντρικό ζήτημα στην ανάλυση μικροσυστοιχιών αποτελεί η αναγνώριση διαφορετικά εκφραζόμενων γονιδίων (Differentially Expressed – DE). Το πακέτο limma, το οποίο βασίζεται σε γραμμικά μοντέλα και εμπειρική εξομάλυνση της διασποράς μέσω Bayes, έχει καθιερωθεί ως πρότυπο για την ανίχνευση διαφορικής έκφρασης σε μελέτες μικροσυστοιχιών. Στην παρούσα εργασία, το limma συγκρίνεται με τα παραδοσιακά t-tests και η απόδοσή τους αξιολογείται υπό διάφορες συνθήκες, όπως διαφορετικά μεγέθη επίδρασης, δείγματος και επίπεδα θορύβου. Μέσω διαφορετικών σεναρίων προσομοίωσης και εφαρμογής των μεθόδων σε πραγματικά δεδομένα μικροσυστοιχιών, αναδεικνύονται τα πλεονεκτήματα των εμπειρικών μεθόδων Bayes όσον αφορά τη μείωση της αβεβαιότητας στην εκτίμηση της διασποράς και την αύξηση της στατιστικής ισχύος.
Πέρα από την ανάλυση διαφορικής έκφρασης, το clustering παίζει καθοριστικό ρόλο στην αναγνώριση προτύπων στα γονιδιακά δεδομένα έκφρασης. Οι παραδοσιακές μέθοδοι, όπως hierachical clustering και το k-means, χρησιμοποιούνται ευρέως αλλά παρουσιάζουν σημαντικούς περιορισμούς, όπως ευαισθησία στο θόρυβο και αδυναμία προσδιορισμού του βέλτιστου αριθμού clusters. Για την αντιμετώπιση αυτών των προκλήσεων, χρησιμοποιούνται μεθοδολογίες βασισμένες σε μοντέλα όπως τα Gaussian Mixture Models - GMMs και προχωρημένες Bayesian προσεγγίσεις όπως το PUMA-CLUST, οι οποίες προσφέρουν ένα μαθηματικό πλαίσιο για την ανάλυση clusters σε δεδομένα μικροσυστοιχιών. Στην εργασία αυτή εξετάζονται διάφορες τεχνικές clustering, αξιολογείται η απόδοσή τους υπό διαφορετικές συνθήκες και αναδεικνύεται η συμβολή των πιθανοθεωρητικών μοντέλων στη βελτίωση της σταθερότητας και της ερμηνευσιμότητας των clusters.
Συνολικά, η εργασία παρουσιάζει μία εκτενή επισκόπηση στατιστικών και υπολογιστικών μεθόδων για την ανάλυση δεδομένων μικροσυστοιχιών, καλύπτοντας τις θεματικές των πολλαπλών υποθέσεων, της διαφορικής έκφρασης και του clustering. Μέσα από τον συνδυασμό θεωρίας και εφαρμογής, αποσαφηνίζονται τα πλεονεκτήματα και οι περιορισμοί κάθε μεθόδου, προσφέροντας ένα δομημένο πλαίσιο για την ανάλυση υψηλής διάστασης γονιδιακών εκφράσεων. Τα συμπεράσματα της εργασίας συμβάλλουν στην ανάπτυξη πιο αξιόπιστων και ισχυρών μεθοδολογιών για την εξαγωγή βιολογικά ερμηνεύσιμων πληροφοριών από πειράματα μικροσυστοιχιών.Microarray technology has revolutionized the field of genomics by enabling quantitative measurement of gene expression levels for thousands of genes in a single experiment. This high-throughput technique has been instrumental in the understanding of biological processes, identification of biomarkers for diseases, and exploring molecular pathways of many conditions. Microarray data analysis, though extremely powerful, is riddled with serious statistical problems due to the high dimensionality of the data, inherent variability, and requirement of robust methodologies to extract meaningful biological information.
One of the most important challenges in microarray data analysis is that of multiple hypothesis testing. With a thousand genes being tested for differential expression at once, the application of traditional statistical methods leads to an increased rate of false positives, hence the need to apply corrections that balance the false discoveries vs. statistical power trade-off. The Benjamini and Hochberg (1995) False Discovery Rate (FDR) approach is one popular method to regulate the false positives and attain high sensitivity. In this thesis we examine different multiple hypothesis testing procedures from highly conservative traditional methods such as Bonferroni correction to cutting-edge state-of-the-art FDR-based strategies and assess their application to microarray data.
Another central aspect of microarray data analysis is the identification of differentially expressed (DE) genes. The limma package, which employs linear models and empirical Bayes variance moderation, has become a standard for differential expression detection in microarray research. In this thesis, limma is compared to the traditional t-tests, and their performances are evaluated under various settings, e.g., varying effect size, sample size, and noise. By using different simulation scenarios and applying the methods on real microarray data sets, we demonstrate the advantages of empirical Bayes methods in reduction of variance estimation uncertainty and increase in statistical power.
In addition to differential expression analysis, clustering plays a crucial role in identifying patterns in gene expression data. Traditional approaches such as k-means and hierarchical clustering are used regularly but suffer from drawbacks such as sensitivity to noise and the inability to determine the number of clusters. For solving these challenges, model-based clustering techniques such as Gaussian Mixture Models (GMMs) and advanced Bayesian techniques such as PUMA-CLUST provide a mathematical framework for microarray data cluster analysis. This thesis investigates various clustering techniques, assessing their performance on different situations, and shows how probabilistic modeling can be used to improve stability and interpretability of clusters.
Overall, the thesis presents an extensive review of statistical and computational methods for the analysis of microarray data, from multiple hypothesis testing, differential expression analysis, to clustering. With theory and practice combined, we aim to explain the advantages and disadvantages of various methods, offering a structured framework for analysis of high-dimensional gene expressions. The findings contribute to the ongoing development of better and robust methodology for revealing biologically interpretable information from microarray experiments.
Περιγραφή
Λέξεις-κλειδιά
Ανάλυση δεδομένων, Γονιδιακά δεδομένα, Στατιστική, Data analysis, Microarray, Statistics