Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Διδακτορικές διατριβές / PhD Theses

Τίτλος :	Deep neural networks for biomedical question answering

Εναλλακτικός τίτλος :	Βαθιά νευρωνικά δίκτυα για βιοϊατρικά συστήματα ερωταποκρίσεων

Δημιουργός :	Παππάς, Δημήτριος Pappas, Dimitrios

Συντελεστής :	Androutsopoulos, Ion (Επιβλέπων καθηγητής) Papageorgiou, Haris (Εξεταστής) Koutsopoulos, Iordanis (Εξεταστής) Vassalos, Vasilios (Εξεταστής) Kotidis, Υannis (Εξεταστής) Konstas, Ioannis (Εξεταστής) Paliouras, Georgios (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Συντελεστής :

Androutsopoulos, Ion (Επιβλέπων καθηγητής)
Papageorgiou, Haris (Εξεταστής)
Koutsopoulos, Iordanis (Εξεταστής)
Vassalos, Vasilios (Εξεταστής)
Kotidis, Υannis (Εξεταστής)
Konstas, Ioannis (Εξεταστής)
Paliouras, Georgios (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	186p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10568

Περίληψη :	Σε αυτήν τη διατριβή, επεκτείνουμε την έρευνα στον τομέα των ερωταποκρίσεων σε βιοϊατρικά κείμενα. Το πρώτο μέρος της διατριβής επικεντρώνεται στην ανάκτηση περιλήψεων επιστημονικής βιβλιογραφίας με βάση μια ερώτηση που υποβάλλεται από έναν βιοϊατρικό ειδικό εκφρασμένη σε φυσική γλώσσα. Προτείνουμε νέα μοντέλα βαθιάς μάθησης για την ανάκτηση βιοϊατρικών κειμένων και εξαγωγή αποσπασμάτων σχετικών με την ερώτηση. Προτείνονται επίσης μοντέλα που ανακτούν τα κείμενα και τα αποσπάσματα ταυτόχρονα, τα οποία βελτιώνουν ακόμη περισσότερο τα αποτελέσματα. Το καλύτερο μοντέλο βαθιάς μάθησης που δημιουργήθηκε έγινε δημόσια διαθέσιμο ως πρωτότυπο έρευνας κατά τη διάρκεια της πανδημίας του κορονοϊού για να βοηθήσει τους ερευνητές σε όλο τον κόσμο. Σε συνεργασία με βιοϊατρικούς ειδικούς, χρησιμοποιήσαμε ένα από τα μοντέλα βαθιάς μάθησης μας για την ανάκτηση εγγράφων και αναπτύξαμε ένα σύστημα αναγνώρισης λογοτεχνίας για συστηματικές ανασκοπήσεις.Ένα μείζον θέμα στις ερωταποκρίσεις σε βιοϊατρικά κείμενα είναι η έλλειψη επισημειωμένων δεδομένων από ανθρώπους, καθώς η επισημείωση απαιτεί ανθρώπινη ειδίκευση και χρόνο. Για αυτό το λόγο στο δεύτερο τμήμα της διατριβής, κατασκευάσαμε δύο νέα τεχνητά σύνολα δεδομένων για ερωταποκρίσεις σε βιοϊατρικά δεδομένα με τη μορφή πολλαπλής επιλογής (cloze-style QA) τα οποία και διατίθενται ελεύθερα. Ακολουθήσαμε μια μεθοδολογία που χρησιμοποιήθηκε στο παρελθόν σε ειδησεογραφικά άρθρα και βιβλία και κατασκευάζουμε εκατομμύρια τεχνητά παραδείγματα εκπαίδευσης που μπορούν να χρησιμοποιηθούν για την εκπαίδευση μοντέλων βαθιάς μάθησης που απαιτούν μεγάλο όγκο δεδομένων. Αξιολογώντας τις απαντήσεις των ανθρώπων στις κατασκευασμένες ερωτήσεις, δείχνουμε ότι οι άνθρωποι που είναι ειδικοί στον τομέα ξεπερνούν τους μη ειδικούς, το οποίο υποστηρίζει τον ισχυρισμό ότι η ανθρώπινη τεχνογνωσία είναι απαραίτητη για την απάντηση ερωτήσεων στον βιοϊατρικό τομέα. Αναπτύξαμε και εκπαιδεύσαμε νέα μοντέλα βαθιάς μάθησης για κατανόηση γραπτού λόγου χρησιμοποιώντας τα νέα μας σύνολα δεδομένων. Τα μοντέλα μας ξεπερνούν προηγούμενα προτεινόμενα μοντέλα βαθιάς μάθησης για ερωταποκρίσεις πολλαπλών επιλογών, καθώς και τέσσερα ισχυρά μοντέλα που δεν χρησιμοποιούν βαθιά μάθηση. Σε πειράματα που διεξήχθησαν σε ένα δείγμα του συνόλου δεδομένων, το καλύτερο μοντέλο ξεπέρασε όλους τους ανθρώπους που δεν ήταν ειδικοί και πέτυχε ανταγωνιστικά αποτελέσματα σε σύγκριση με τους ειδικούς βιοϊατρικής.Στο τρίτο μέρος της διατριβής, εκπαιδεύσαμε μοντέλα βαθιάς μάθησης για εξαγωγή απαντήσεων σε βιοϊατρικές ερωτήσεις ως τμήματα κειμένου (φράσεις) σε δύο καλά εδραιωμένα βιοϊατρικά σύνολα δεδομένων. Με δεδομένο ένα απόσπασμα κειμένου και μια ερώτηση, επιλέγεται ως απάντηση ένα τμήμα του αποσπάσματος.Εξετάζουμε έξι τεχνικές επαύξησης δεδομένων που εφαρμόζεται πριν από την εκπαίδευση των μοντέλων.Δείχνουμε ότι όλες οι τεχνικές επαύξησης δεδομένων βελτιώνουν την απόδοση, ακόμα και όταν χρησιμοποιούνται ως δεδομένα για περαιτέρω εκπαίδευση (fine-tuning) όταν χρησιμοποιούνται μεγάλα προεκπαιδευμένα γλωσσικά μοντέλα.Δείχνουμε επίσης ότι η χρήση ενός από τα τεχνητά σύνολα δεδομένων που δημιουργήθηκαν σε αυτή τη διατριβή λειτουργεί ως μια καλή τεχνική επαύξησης δεδομένων. In this thesis, we advance biomedical Question Answering (QA). The first part of the thesis focuses on retrieving abstracts of scientific literature given a natural language question submitted by a biomedical expert. We propose multiple state-of-the-art deep learning models for biomedical document retrieval and snippet extraction. Joint models that simultaneously retrieve documents and snippets are also proposed, which improve the results even further. The best deep learning model was made publicly available as a research prototype during the Coronavirus pandemic to aid researchers around the world. In collaboration with biomedical experts, we also deployed one of our deep learning models for document retrieval and developed a literature identification system for systematic reviews. One major issue in biomedical QA is the scarcity of human-annotated data as annotation of biomedical literature demands human expertise and time. Therefore in the second part of the thesis, we develop two new artificial datasets for biomedical cloze-style QA and make them publicly available. We followed a methodology previously used in news articles and books and extracted millions of artificial training examples that can be used to train data-demanding deep learning models. Through human performance evaluation, we show that human experts outperform non-experts in the resulting cloze-style QA task, which supports the claim that human expertise is essential for biomedical QA. We developed and trained new deep learning models for reading comprehension using our new datasets. Our models outperform previously proposed deep learning models for cloze-style QA, as well as four strong baselines. In experiments conducted on a sample of the dataset, the best model outperformed all human non-experts and achieved competitive results compared to biomedical experts. In the third part of the thesis, we train deep learning models for factoid QA in two well-established biomedical datasets. Given a snippet of text and a question, a span of the snippet is selected as an answer. We examine six techniques for offline data augmentation (data augmentation applied before training). We show that in biomedical factoid QA, all data augmentation techniques improve performance, even when fine-tuning very large pre-trained language models. We also show that using one of the artificial datasets created in this thesis acts as a good data augmentation technique.

Περίληψη :

Σε αυτήν τη διατριβή, επεκτείνουμε την έρευνα στον τομέα των ερωταποκρίσεων σε βιοϊατρικά κείμενα. Το πρώτο μέρος της διατριβής επικεντρώνεται στην ανάκτηση περιλήψεων επιστημονικής βιβλιογραφίας με βάση μια ερώτηση που υποβάλλεται από έναν βιοϊατρικό ειδικό εκφρασμένη σε φυσική γλώσσα. Προτείνουμε νέα μοντέλα βαθιάς μάθησης για την ανάκτηση βιοϊατρικών κειμένων και εξαγωγή αποσπασμάτων σχετικών με την ερώτηση. Προτείνονται επίσης μοντέλα που ανακτούν τα κείμενα και τα αποσπάσματα ταυτόχρονα, τα οποία βελτιώνουν ακόμη περισσότερο τα αποτελέσματα. Το καλύτερο μοντέλο βαθιάς μάθησης που δημιουργήθηκε έγινε δημόσια διαθέσιμο ως πρωτότυπο έρευνας κατά τη διάρκεια της πανδημίας του κορονοϊού για να βοηθήσει τους ερευνητές σε όλο τον κόσμο. Σε συνεργασία με βιοϊατρικούς ειδικούς, χρησιμοποιήσαμε ένα από τα μοντέλα βαθιάς μάθησης μας για την ανάκτηση εγγράφων και αναπτύξαμε ένα σύστημα αναγνώρισης λογοτεχνίας για συστηματικές ανασκοπήσεις.Ένα μείζον θέμα στις ερωταποκρίσεις σε βιοϊατρικά κείμενα είναι η έλλειψη επισημειωμένων δεδομένων από ανθρώπους, καθώς η επισημείωση απαιτεί ανθρώπινη ειδίκευση και χρόνο. Για αυτό το λόγο στο δεύτερο τμήμα της διατριβής, κατασκευάσαμε δύο νέα τεχνητά σύνολα δεδομένων για ερωταποκρίσεις σε βιοϊατρικά δεδομένα με τη μορφή πολλαπλής επιλογής (cloze-style QA) τα οποία και διατίθενται ελεύθερα. Ακολουθήσαμε μια μεθοδολογία που χρησιμοποιήθηκε στο παρελθόν σε ειδησεογραφικά άρθρα και βιβλία και κατασκευάζουμε εκατομμύρια τεχνητά παραδείγματα εκπαίδευσης που μπορούν να χρησιμοποιηθούν για την εκπαίδευση μοντέλων βαθιάς μάθησης που απαιτούν μεγάλο όγκο δεδομένων. Αξιολογώντας τις απαντήσεις των ανθρώπων στις κατασκευασμένες ερωτήσεις, δείχνουμε ότι οι άνθρωποι που είναι ειδικοί στον τομέα ξεπερνούν τους μη ειδικούς, το οποίο υποστηρίζει τον ισχυρισμό ότι η ανθρώπινη τεχνογνωσία είναι απαραίτητη για την απάντηση ερωτήσεων στον βιοϊατρικό τομέα. Αναπτύξαμε και εκπαιδεύσαμε νέα μοντέλα βαθιάς μάθησης για κατανόηση γραπτού λόγου χρησιμοποιώντας τα νέα μας σύνολα δεδομένων. Τα μοντέλα μας ξεπερνούν προηγούμενα προτεινόμενα μοντέλα βαθιάς μάθησης για ερωταποκρίσεις πολλαπλών επιλογών, καθώς και τέσσερα ισχυρά μοντέλα που δεν χρησιμοποιούν βαθιά μάθηση. Σε πειράματα που διεξήχθησαν σε ένα δείγμα του συνόλου δεδομένων, το καλύτερο μοντέλο ξεπέρασε όλους τους ανθρώπους που δεν ήταν ειδικοί και πέτυχε ανταγωνιστικά αποτελέσματα σε σύγκριση με τους ειδικούς βιοϊατρικής.Στο τρίτο μέρος της διατριβής, εκπαιδεύσαμε μοντέλα βαθιάς μάθησης για εξαγωγή απαντήσεων σε βιοϊατρικές ερωτήσεις ως τμήματα κειμένου (φράσεις) σε δύο καλά εδραιωμένα βιοϊατρικά σύνολα δεδομένων. Με δεδομένο ένα απόσπασμα κειμένου και μια ερώτηση, επιλέγεται ως απάντηση ένα τμήμα του αποσπάσματος.Εξετάζουμε έξι τεχνικές επαύξησης δεδομένων που εφαρμόζεται πριν από την εκπαίδευση των μοντέλων.Δείχνουμε ότι όλες οι τεχνικές επαύξησης δεδομένων βελτιώνουν την απόδοση, ακόμα και όταν χρησιμοποιούνται ως δεδομένα για περαιτέρω εκπαίδευση (fine-tuning) όταν χρησιμοποιούνται μεγάλα προεκπαιδευμένα γλωσσικά μοντέλα.Δείχνουμε επίσης ότι η χρήση ενός από τα τεχνητά σύνολα δεδομένων που δημιουργήθηκαν σε αυτή τη διατριβή λειτουργεί ως μια καλή τεχνική επαύξησης δεδομένων.
In this thesis, we advance biomedical Question Answering (QA). The first part of the thesis focuses on retrieving abstracts of scientific literature given a natural language question submitted by a biomedical expert. We propose multiple state-of-the-art deep learning models for biomedical document retrieval and snippet extraction. Joint models that simultaneously retrieve documents and snippets are also proposed, which improve the results even further. The best deep learning model was made publicly available as a research prototype during the Coronavirus pandemic to aid researchers around the world. In collaboration with biomedical experts, we also deployed one of our deep learning models for document retrieval and developed a literature identification system for systematic reviews. One major issue in biomedical QA is the scarcity of human-annotated data as annotation of biomedical literature demands human expertise and time. Therefore in the second part of the thesis, we develop two new artificial datasets for biomedical cloze-style QA and make them publicly available. We followed a methodology previously used in news articles and books and extracted millions of artificial training examples that can be used to train data-demanding deep learning models. Through human performance evaluation, we show that human experts outperform non-experts in the resulting cloze-style QA task, which supports the claim that human expertise is essential for biomedical QA. We developed and trained new deep learning models for reading comprehension using our new datasets. Our models outperform previously proposed deep learning models for cloze-style QA, as well as four strong baselines. In experiments conducted on a sample of the dataset, the best model outperformed all human non-experts and achieved competitive results compared to biomedical experts. In the third part of the thesis, we train deep learning models for factoid QA in two well-established biomedical datasets. Given a snippet of text and a question, a span of the snippet is selected as an answer. We examine six techniques for offline data augmentation (data augmentation applied before training). We show that in biomedical factoid QA, all data augmentation techniques improve performance, even when fine-tuning very large pre-trained language models. We also show that using one of the artificial datasets created in this thesis acts as a good data augmentation technique.

Λέξη κλειδί :	Συστήματα εςρωταποκρίσεων Ανάκτηση κειμένου Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Βιοϊατρικός τομέας Question answering Text retrieval Natural Language Processing (NLP) Deep learning Biomedical domain

Διαθέσιμο από :	2023-05-31 13:21:52

Ημερομηνία έκδοσης :	01-05-2023

Ημερομηνία κατάθεσης :	2023-05-31 13:21:52

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Pappas_2023.pdf

Τύπος: application/pdf

Είσοδος