Συλλογές | |
---|---|
Τίτλος |
Automatic text correction for chatbots |
Εναλλακτικός τίτλος |
Αυτόματος διορθωτής κειμένου για chatbots |
Δημιουργός |
Παλασσόπουλος, Βασίλειος, Palassopoulos, Vasileios |
Συντελεστής |
Athens University of Economics and Business, Department of Informatics Βασσάλος, Βασίλειος Μαλακασιώτης, Πρόδρομος Ανδρουτσόπουλος, Ίων |
Τύπος |
Text |
Φυσική περιγραφή |
70p. |
Γλώσσα |
en |
Περίληψη |
The present thesis addresses an important, open, Machine Learning problem, namely the automatic correction of the involuntary errors, made by humans, when communicating by written messages with chatbots. First, the problem is formulated as a “noisy-channel model” problem, and all the needed algorithms are developed, employing both, n-gram and Transformer-based language models. Next, a complete software framework is developed for solving the problem by employing Machine Learning methods, using Python and C++ libraries, and partially modifying them, resulting in a 20-fold increase in the processing speed for the specific problem. Finally, the developed software framework is used for performing Machine Learning experiments, using the publicly available corpora of “WikEd” and “W&I”. Although only a simple personal computer and limited use of cloud computing are used, and the publicly available corpora are not entirely appropriate for the machine training-tuning-testing procedures, certain interesting results are obtained, with respect to the relative efficiency of the various available methods for language processing. If, in the future, appropriate corpora become available and sufficient computer resources are used, it is expected that the developed software framework can provide acceptably efficient methods for the automatic text correction for chatbots. Αντικείμενο της παρούσας Διπλωματικής Εργασίας είναι ένα σπουδαίο, και ακόμη άλυτο, πρόβλημα της Μηχανικής Μάθησης (Machine Learning), συγκεκριμένα, η αυτόματη διόρθωση των αθέλητων σφαλμάτων, τα οποία ενδέχεται να κάνουν οι χρήστες των chatbots, όταν επικοινωνούν με αυτά μέσω γραπτών μηνυμάτων. Σε πρώτο στάδιο, το προαναφερόμενο πρόβλημα διατυπώνεται ως ένα “Μοντέλο Θορυβώδους Διαύλου” (Noisy Channel Model), και όλοι οι απαιτούμενοι αλγόριθμοι αναπτύσσονται, χρησιμοποιώντας ως γλωσσικά μοντέλα, εναλλακτικά, νι-γράμματα (n-grams) και βασιζόμενα στους μετασχηματιστές (transformer-based) μοντέλα. Σε επόμενο στάδιο, αναπτύσσεται ένα πλήρες πλαίσιο λογισμικού (software framework) για την επίλυση του προβλήματος, χρησιμοποιώντας κατάλληλες Βιβλιοθήκες Προγραμμάτων από τις γλώσσες προγραμματισμού Python και C++, και τροποποιώντας κατάλληλα αυτές, ώστε να επιτευχθεί 20-πλάσια αύξηση της ταχύτητας επεξεργασίας του συγκεκριμένου προβλήματος. Τέλος, το αναπτυχθέν πλαίσιο λογισμικού χρησιμοποιείται για την εκτέλεση πειραμάτων Μηχανικής Μάθησης, χρησιμοποιώντας τα δημόσια διαθέσιμα Σώματα Κειμένων (Corpora) “WikEd” και “W&I”. Στα πειράματα αυτά, χρησιμοποιήθηκε μόνο ένας απλός Προσωπικός Υπολογιστής, έγινε μόνο περιορισμένη χρήση του Υπολογιστικού Νέφους (Cloud Computing), και τα δημόσια διαθέσιμα Σώματα Κειμένων δεν ήταν πλήρως κατάλληλα για την εκπαίδευση-προσαρμογή-δοκιμή (training-tuning-testing) των μοντέλων Μηχανικής Μάθησης. Όμως, παρά όλους αυτούς τους περιορισμούς, συγκεκριμένα ενδιαφέροντα συμπεράσματα προέκυψαν, ιδίως σε σχέση με την συγκριτική αποδοτικότητα των διαθέσιμων εναλλακτικών μεθόδων για γλωσσική επεξεργασία, που έχουν αναπτυχθεί μέχρι σήμερα. Αν, στο μέλλον, γίνουν διαθέσιμα καταλληλότερα Σώματα Κειμένου και χρησιμοποιηθούν επαρκείς υπολογιστικοί πόροι, εκτιμάται ότι το αναπτυχθέν στην παρούσα Εργασία πλαίσιο λογισμικού μπορεί να παράσχει αποδεκτά αποτελεσματικές μεθόδους για την αυτόματη διόρθωση κειμένου από τα chatbots. |
Λέξη κλειδί |
Natural Language Processing (NLP) Machine learning Μοντέλο θορυβώδους διαύλου Διόρθωση γραμματικών σφαλμάτων Επεξεργασία φυσικής γλώσσας Μηχανική μάθηση Grammatical error correction Noisy channel model Chatbot |
Ημερομηνία έκδοσης |
08-01-2020 |
Ημερομηνία αποδοχής |
14-01-2020 |
Άδεια χρήσης |
https://creativecommons.org/licenses/by/4.0/ |