Συλλογές | |
---|---|
Τίτλος |
Neural architectures for question answering in dialogs |
Εναλλακτικός τίτλος |
Νευρωνικές αρχιτεκτονικές για συστήματα ερωτοαπαντήσεων σε διαλόγους |
Δημιουργός |
Σφακιανάκης, Παντελεήμων, Sfakianakis, Panteleimon |
Συντελεστής |
Athens University of Economics and Business, Department of Informatics Androutsopoulos, Ion Papastamoulis, Panagiotis Vassalos, Vasilios |
Τύπος |
Text |
Φυσική περιγραφή |
53p. |
Γλώσσα |
en |
Αναγνωριστικό |
http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10564 |
Περίληψη |
Over the last few years, Conversational Question Answering (CQA) is a subject that has gained popularity as a growing research field in Natural Language Understanding, thanks to the introduction of large conversational datasets such as QuAC and CoQA. CQA requires the machine to understand a given text and be involved in a multi-turn dialogue to respond to text-related questions. It constitutes an extension to the single-turn question answering, with its main difference being the requirement of appropriate history modelling. This thesis used the Global History Reasoning (GHR) model to model conversational history. GHR architecture has a multi-layer attention network that is able to fuse all the encoded information of all the QA pairs from each dialogue. Due to the complexity of the pre-trained models such as BERTLarge and RoBERTaLarge used in our experiments, bottleneck adapter architecture was explored to make the final trained models lighter and the training procedure more parameter efficient. Training GHR model with BERTLarge and RoBERT aLarge achieves 68.5 and 72.9 word level F1 respectively. When adapters are utilized, word level F1 is 67.6 for BERTLarge and 73.6 for RoBERTaLarge for the GHR model. With the use of adapters, a similar performance is achieved for the BERT model and there is an improvement in performance for RoBERTa, while only a fraction of the parameters of full model fine-tuning is used. Τα τελευταία χρόνια, το Conversational Question Answering (CQA) αποτελεί ενα πεδίο το οποίο έχει αποκτήσει δημοτικότητα στον τομέα της Επεξεργασίας Φυσικής Γλώσσας. Κυρίαρχο ρόλο σε αυτό διαδραμάτισε η δημιουργία μεγάλης κλίμακας συνόλων δεδομένων με συζητήσεις ερωτοαπαντήσεων οπως το QuaC και το CoQΑ. To CQA καλεί το μηχάνημα να “καταλάβει" ένα δοσμένο κείμενο και να συμμετάσχει σε ένα διάλογο. Αυτό αποτελεί μια προέκταση του κλασικού συστήματος ερωτοαπαντήσεων το οποίο απευθύνεται σε μια ερώτηση κάθε φορά, με τη διαφορά ότι στην περίπτωση του CQA πρέπει να μοντελοποιηθεί και η ιστορία της συζήτησης. Σε αυτή τη διπλωματική, θα συζητηθεί ένα μοντέλο ολικής μοντελοποίησης της ιστορίας (GHR model). Τα μοντέλα που χρησιμοποιήθηκαν στα πειράματα μας είναι πολύ μεγάλα προεκπαιδευμένα μοντέλα όπως το BERTLarge και το RoBERTALarge. Προκειμένου να κάνουμε τη διαδικασία της εκπαίδευσης των παραμέτρων πιο αποδοτική, χρησιμοποιήθηκαν οι bottleneck adapters. Οι bottleneck adapters είναι στρώματα (layers) τα οποία εισάγονται μέσα στα block των transformer μοντέλων. Κατά τη διάρκεια της εκπαίδευσης, όλοι οι παράμετροι από το transformer μοντέλο παραμένουν παγωμένοι χωρίς να μεταβάλλονται και ανανεώνονται μόνο τα στρώματα των bottleneck adapters. Η εκπαίδευση του GHR μοντέλου με BERTLarge και RoBERTaLarge επιτυγχάνει 68.5 και 72.9 F1 αντίστοιχα. Με τη χρήση των adapters το F1 γίνεται 67.6 για το BERTLarge και 73.6 για το RoBERTaLarge. Επομένως, με τη χρήση των adapters καταφέραμε να έχουμε μια παρόμοια επίδοση για το BERT μοντέλο και βελτιωμένα αποτελέσματα για το RoBERTa μοντέλο χρησιμοποιώντας σημαντικά λιγότερες παραμέτρους. Πρέπει να σημειωθεί ότι τα παραπάνω αποτελέσματα αναφέρονται στο development set του QuAC, το οποίο αποτελεί το σύνολο δεδομένων που χρησιμοποιήσαμε για τα πειράματα μας. Το καλύτερο μας μοντέλο με ενσωματωμένους τους adapters έχει υποβληθεί για επίσημη αξιολόγηση στο hidden test set του QuAC. |
Λέξη κλειδί |
Artificial Intelligence (AI) Conversational Question Answering (CQA) Transfer learning Ερωτοαπαντήσεις σε διαλόγους Neural Networks (NN) Natural Language Processing (NLP) Τεχνητή νοημοσύνη Νευρωνικά δίκτυα Επεξεργασία φυσικής γλώσσας Μεταφορά μάθησης |
Διαθέσιμο από |
2023-05-21 12:40:26 |
Ημερομηνία έκδοσης |
14-12-2022 |
Ημερομηνία κατάθεσης |
2023-05-21 12:40:26 |
Δικαιώματα χρήσης |
Free access |
Άδεια χρήσης |
https://creativecommons.org/licenses/by/4.0/ |