Συλλογές
Τίτλος Automatic text correction for chatbots
Εναλλακτικός τίτλος Αυτόματος διορθωτής κειμένου για chatbots
Δημιουργός Παλασσόπουλος, Βασίλειος, Palassopoulos, Vasileios
Συντελεστής Athens University of Economics and Business, Department of Informatics
Βασσάλος, Βασίλειος
Μαλακασιώτης, Πρόδρομος
Ανδρουτσόπουλος, Ίων
Τύπος Text
Φυσική περιγραφή 70p.
Γλώσσα en
Περίληψη The present thesis addresses an important, open, Machine Learning problem, namely the automatic correction of the involuntary errors, made by humans, when communicating by written messages with chatbots. First, the problem is formulated as a “noisy-channel model” problem, and all the needed algorithms are developed, employing both, n-gram and Transformer-based language models. Next, a complete software framework is developed for solving the problem by employing Machine Learning methods, using Python and C++ libraries, and partially modifying them, resulting in a 20-fold increase in the processing speed for the specific problem. Finally, the developed software framework is used for performing Machine Learning experiments, using the publicly available corpora of “WikEd” and “W&I”. Although only a simple personal computer and limited use of cloud computing are used, and the publicly available corpora are not entirely appropriate for the machine training-tuning-testing procedures, certain interesting results are obtained, with respect to the relative efficiency of the various available methods for language processing. If, in the future, appropriate corpora become available and sufficient computer resources are used, it is expected that the developed software framework can provide acceptably efficient methods for the automatic text correction for chatbots.
Αντικείμενο της παρούσας Διπλωματικής Εργασίας είναι ένα σπουδαίο, και ακόμη άλυτο, πρόβλημα της Μηχανικής Μάθησης (Machine Learning), συγκεκριμένα, η αυτόματη διόρθωση των αθέλητων σφαλμάτων, τα οποία ενδέχεται να κάνουν οι χρήστες των chatbots, όταν επικοινωνούν με αυτά μέσω γραπτών μηνυμάτων. Σε πρώτο στάδιο, το προαναφερόμενο πρόβλημα διατυπώνεται ως ένα “Μοντέλο Θορυβώδους Διαύλου” (Noisy Channel Model), και όλοι οι απαιτούμενοι αλγόριθμοι αναπτύσσονται, χρησιμοποιώντας ως γλωσσικά μοντέλα, εναλλακτικά, νι-γράμματα (n-grams) και βασιζόμενα στους μετασχηματιστές (transformer-based) μοντέλα. Σε επόμενο στάδιο, αναπτύσσεται ένα πλήρες πλαίσιο λογισμικού (software framework) για την επίλυση του προβλήματος, χρησιμοποιώντας κατάλληλες Βιβλιοθήκες Προγραμμάτων από τις γλώσσες προγραμματισμού Python και C++, και τροποποιώντας κατάλληλα αυτές, ώστε να επιτευχθεί 20-πλάσια αύξηση της ταχύτητας επεξεργασίας του συγκεκριμένου προβλήματος. Τέλος, το αναπτυχθέν πλαίσιο λογισμικού χρησιμοποιείται για την εκτέλεση πειραμάτων Μηχανικής Μάθησης, χρησιμοποιώντας τα δημόσια διαθέσιμα Σώματα Κειμένων (Corpora) “WikEd” και “W&I”. Στα πειράματα αυτά, χρησιμοποιήθηκε μόνο ένας απλός Προσωπικός Υπολογιστής, έγινε μόνο περιορισμένη χρήση του Υπολογιστικού Νέφους (Cloud Computing), και τα δημόσια διαθέσιμα Σώματα Κειμένων δεν ήταν πλήρως κατάλληλα για την εκπαίδευση-προσαρμογή-δοκιμή (training-tuning-testing) των μοντέλων Μηχανικής Μάθησης. Όμως, παρά όλους αυτούς τους περιορισμούς, συγκεκριμένα ενδιαφέροντα συμπεράσματα προέκυψαν, ιδίως σε σχέση με την συγκριτική αποδοτικότητα των διαθέσιμων εναλλακτικών μεθόδων για γλωσσική επεξεργασία, που έχουν αναπτυχθεί μέχρι σήμερα. Αν, στο μέλλον, γίνουν διαθέσιμα καταλληλότερα Σώματα Κειμένου και χρησιμοποιηθούν επαρκείς υπολογιστικοί πόροι, εκτιμάται ότι το αναπτυχθέν στην παρούσα Εργασία πλαίσιο λογισμικού μπορεί να παράσχει αποδεκτά αποτελεσματικές μεθόδους για την αυτόματη διόρθωση κειμένου από τα chatbots.
Λέξη κλειδί Natural Language Processing (NLP)
Machine learning
Μοντέλο θορυβώδους διαύλου
Διόρθωση γραμματικών σφαλμάτων
Επεξεργασία φυσικής γλώσσας
Μηχανική μάθηση
Grammatical error correction
Noisy channel model
Chatbot
Ημερομηνία έκδοσης 08-01-2020
Ημερομηνία αποδοχής 14-01-2020
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/