Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Using predictive text for grammatical error correction in second language learning

Εναλλακτικός τίτλος :	Η πρόβλεψη κειμένου για την αυτόματη διόρθωση γραμματικών λαθών στην εκμάθηση ξένης γλώσσας

Δημιουργός :	Κορρέ, Αικατερίνη Korre, Ekaterini

Συντελεστής :	Παυλόπουλος, Ιωάννης (Επιβλέπων καθηγητής) Κωνσταντόπουλος, Πάνος (Εξεταστής) Ανδρουτσόπουλος, Ίων (Εξεταστής) Athnes University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	62p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8126

Περίληψη :	Η αυτόματη διόρθωση γραμματικών λαθών (Grammatical Error Correction, GEC) αφορά την αυτόματη διόρθωση διαφορετικών τύπων λαθών, όπως λάθη ορθογραφίας, στίξης, και γραμματικής. Ένα σύστημα GEC προϋποθέτει συνήθως την εισαγωγή μιας λανθασμένης πρότασης με σκοπό να τη μετατρέψει στη σωστή εκδοχή της. Υπάρχουν πολλές προσεγγίσεις για τη διόρθωση γραμματικών λαθών, από μοντέλα κανόνων (rule-based models) έως και νευρωνική μηχανική μετάφραση (neuralmachine translation). Υπάρχει παρόλα αυτά μια προσέγγιση η οποία δεν έχει μελετηθεί αρκετά: η γλωσσική μοντελοποίηση (language modeling) (Bryant andBriscoe, 2018), και πιο συγκεκριμένα η πρόβλεψη κειμένου. Τα γλωσσικά μοντέλα χρησιμοποιούνται ως επί το πλείστον για παραγωγή λόγου, πράγμα το οποίο μας κάνει να παραβλέπουμε την προοπτική τους να χρησιμοποιηθούν πιθανώς και ως ένα εργαλείο για τη διόρθωση μιας λανθασμένης πρότασης ή για την αποφυγή λαθών κατά τη γραφή. Η μελέτη αυτή επικεντρώνεται σε αυτήν την προοπτική. Εκπαιδεύοντας και αξιολογώντας ένα στατιστικό γλωσσικό μοντέλο (SLM) και το νευρωνικό γλωσσικό μοντέλο αυτο-επιβλεπόμενης μάθησης GPT-2, εξετάζω την ικανότητα των μοντέλων να προβλέπουν την διόρθωση σε προτάσεις οι οποίες περιέχουν γραμματικά λάθη. Τα αποτελέσματα έδειξαν πως τα γλωσσικά μοντέλα, όντας ρυθμισμένα να προβλέπουν τη στατιστικά πιο πιθανή διόρθωση, μπορούν να προβλέπουν περίπου το 15% των διορθώσεων. Το ποσοστό αυτό αυξάνεται περίπου στο 25% όταν το γλωσσικό μοντέλο προβλέπει τις 3 πιο πιθανές προβλέψεις. Για να ελέγξω την παιδαγωγική ικανότητα ενός γλωσσικού μοντέλου, διεξήγαγα ένα πείραμα με πραγματικούς μαθητές της Αγγλικής γλώσσας ως δεύτερη ξένη γλώσσα. Χρησιμοποιώντας το GPT-2 για να παράγει κείμενο το οποίο λειτουργεί ως πιθανή συνέχεια των προτάσεων των μαθητών, δημιούργησα ένα μικρό σώμα κειμένων των εκθέσεων των μαθητών και ανέλυσα τα λάθη τους μαζί με τις συχνότητες τους. Το πείραμα έδειξε πως τα γλωσσικά μοντέλα μπορούν όντως να βοηθήσουν τους μαθητές να γράψουν γραμματικά πιο σωστές εκθέσεις. Ωστόσο, αξίζει να σημειωθεί ότι το ποσοστό επιτυχίας εξαρτάται επίσης και από τα χαρακτηριστικά του/τηςεκάστοτε μαθητή/τριας. Grammatical Error Correction (GEC) is the task of correcting different types of errors, such as spelling, punctuation, and grammatical errors, in written texts. A GEC system usually requires an input consisting of the erroneous sentence in order to transform it into the correct version of it. There are many approaches to GEC, from rule-basedmodels to neural machine translation. However, there is one approach that has not been researched enough: language modeling (Bryant and Briscoe, 2018), and more specifically, predictive text. Language models are prominently used for language generation, a fact that makes us overlook the possibility of using them as a tool for predicting the correction, or the correct token in an erroneous sentence. This study focuses on this potential. By training and testing a statistical language model (SLM) and an autoregressive language model, GPT-2, I examined the potential of the models to predict the correct token in sentences that contain grammatical mistakes. The findings showed that language models can predict approximately 15% of the correct tokens with one greedy generated prediction. This percentage rises up to around 25% when the language model generates the top 3 predictions. To test the pedagogical capacity of a language model, I also experimented with real English as a second language (ESL) learners. By equipping state-of-the-art language model, GPT-2, to generate text that functions as potential continuation of the learners' sentences, I created a small corpus of the learners' writings and analyzed their errors along with their frequencies. The experiment showed that language models can actually help learners to write more grammatically correct essays, however, the rate of success also depends on the learners' individual characteristics.

Περίληψη :

Η αυτόματη διόρθωση γραμματικών λαθών (Grammatical Error Correction, GEC) αφορά την αυτόματη διόρθωση διαφορετικών τύπων λαθών, όπως λάθη ορθογραφίας, στίξης, και γραμματικής. Ένα σύστημα GEC προϋποθέτει συνήθως την εισαγωγή μιας λανθασμένης πρότασης με σκοπό να τη μετατρέψει στη σωστή εκδοχή της. Υπάρχουν πολλές προσεγγίσεις για τη διόρθωση γραμματικών λαθών, από μοντέλα κανόνων (rule-based models) έως και νευρωνική μηχανική μετάφραση (neuralmachine translation). Υπάρχει παρόλα αυτά μια προσέγγιση η οποία δεν έχει μελετηθεί αρκετά: η γλωσσική μοντελοποίηση (language modeling) (Bryant andBriscoe, 2018), και πιο συγκεκριμένα η πρόβλεψη κειμένου. Τα γλωσσικά μοντέλα χρησιμοποιούνται ως επί το πλείστον για παραγωγή λόγου, πράγμα το οποίο μας κάνει να παραβλέπουμε την προοπτική τους να χρησιμοποιηθούν πιθανώς και ως ένα εργαλείο για τη διόρθωση μιας λανθασμένης πρότασης ή για την αποφυγή λαθών κατά τη γραφή. Η μελέτη αυτή επικεντρώνεται σε αυτήν την προοπτική. Εκπαιδεύοντας και αξιολογώντας ένα στατιστικό γλωσσικό μοντέλο (SLM) και το νευρωνικό γλωσσικό μοντέλο αυτο-επιβλεπόμενης μάθησης GPT-2, εξετάζω την ικανότητα των μοντέλων να προβλέπουν την διόρθωση σε προτάσεις οι οποίες περιέχουν γραμματικά λάθη. Τα αποτελέσματα έδειξαν πως τα γλωσσικά μοντέλα, όντας ρυθμισμένα να προβλέπουν τη στατιστικά πιο πιθανή διόρθωση, μπορούν να προβλέπουν περίπου το 15% των διορθώσεων. Το ποσοστό αυτό αυξάνεται περίπου στο 25% όταν το γλωσσικό μοντέλο προβλέπει τις 3 πιο πιθανές προβλέψεις. Για να ελέγξω την παιδαγωγική ικανότητα ενός γλωσσικού μοντέλου, διεξήγαγα ένα πείραμα με πραγματικούς μαθητές της Αγγλικής γλώσσας ως δεύτερη ξένη γλώσσα. Χρησιμοποιώντας το GPT-2 για να παράγει κείμενο το οποίο λειτουργεί ως πιθανή συνέχεια των προτάσεων των μαθητών, δημιούργησα ένα μικρό σώμα κειμένων των εκθέσεων των μαθητών και ανέλυσα τα λάθη τους μαζί με τις συχνότητες τους. Το πείραμα έδειξε πως τα γλωσσικά μοντέλα μπορούν όντως να βοηθήσουν τους μαθητές να γράψουν γραμματικά πιο σωστές εκθέσεις. Ωστόσο, αξίζει να σημειωθεί ότι το ποσοστό επιτυχίας εξαρτάται επίσης και από τα χαρακτηριστικά του/τηςεκάστοτε μαθητή/τριας.
Grammatical Error Correction (GEC) is the task of correcting different types of errors, such as spelling, punctuation, and grammatical errors, in written texts. A GEC system usually requires an input consisting of the erroneous sentence in order to transform it into the correct version of it. There are many approaches to GEC, from rule-basedmodels to neural machine translation. However, there is one approach that has not been researched enough: language modeling (Bryant and Briscoe, 2018), and more specifically, predictive text. Language models are prominently used for language generation, a fact that makes us overlook the possibility of using them as a tool for predicting the correction, or the correct token in an erroneous sentence. This study focuses on this potential. By training and testing a statistical language model (SLM) and an autoregressive language model, GPT-2, I examined the potential of the models to predict the correct token in sentences that contain grammatical mistakes. The findings showed that language models can predict approximately 15% of the correct tokens with one greedy generated prediction. This percentage rises up to around 25% when the language model generates the top 3 predictions. To test the pedagogical capacity of a language model, I also experimented with real English as a second language (ESL) learners. By equipping state-of-the-art language model, GPT-2, to generate text that functions as potential continuation of the learners' sentences, I created a small corpus of the learners' writings and analyzed their errors along with their frequencies. The experiment showed that language models can actually help learners to write more grammatically correct essays, however, the rate of success also depends on the learners' individual characteristics.

Λέξη κλειδί :	Διόρθωση γραμματικών σφαλμάτων Πρόβλεψη κειμένου Εκμάθηση δεύτερης ξένης γλώσσας Grammatical Error Correction (GEC) Predictive text Second Language Acquisition (SLA)

Διαθέσιμο από :	2020-11-30 16:29:28

Ημερομηνία έκδοσης :	20-11-2020

Ημερομηνία κατάθεσης :	2020-11-30 16:29:28

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Korre_2020.pdf

Τύπος: application/pdf

Είσοδος