Detecting negative language transfer in L2 using natural language processing
Ημερομηνία
2026-02-13
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων / ουσα
Διαθέσιμο από
Περίληψη
Negative Language Transfer (NLT) is the misuse of a native language pattern or rule that leads to the production of an error, or an inappropriate form in the target language. There are various aspects of NLT that have been explored in NLP, however, many aspects of the phenomenon still remain unexplored; the extent of Inter Annotator Agreement (IAA) in detecting NLT, and the performance of Large Language Models (LLMs) as annotators alongside humans. The present study deals with these gaps. To explore them, three annotation rounds were conducted where expert and non-expert annotators annotated 300 authentic learner sentences produced by Greek learners of English. An adjudication round was also conducted, in order to gain qualitative insight into annotator disagreements. The key findings include that human agreement is low, and varies approximately between κ = 0.30 and κ = 0.40. The LLM achieves a similar agreement score against all annotators averaged (κ = 0.27), agreeing more with non-expert annotators, and achieving similar κ scores (0.28). These results have notable implications for the creation and development of foreign language learning tools, as well as NLP systems, as LLMs are not on an expert level yet. This study concludes that NLT is a complex and subjective task. The thesis concludes that it should be treated as a multi-label, ordinal problem to better reflect its subjectivity instead of a binary one.Η αρνητική γλωσσική παρεμβολή (Negative Language Transfer, NLT) είναι η λανθασμένη χρήση ενός μοτίβου ή κανόνα της μητρικής γλώσσας, που οδηγεί στην παραγωγή ενός λάθους ή μιας αστοχίας στη ξένη γλώσσα. Υπάρχουν διάφορες πτυχές της αρνητικής γλωσσικής παρεμβολής που έχουν μελετηθεί στην Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP), όμως, πολλές πτυχές του φαινομένου παραμένουν ακόμα ανεξερεύνητες: αυτές είναι ο βαθμός συμφωνίας μεταξύ επισημειωτών (Inter-Annotator Agreement, IAA), καθώς και η ικανότητα των μεγάλων γλωσσικών μοντέλων (Large Language Models, LLMs) να την εντοπίσουν. Η παρούσα μελέτη ασχολείται με αυτά τα κενά. Για την μελέτη τους, πραγματοποιήθηκαν τρεις γύροι επισημείωσης, όπου ειδικοί και μη-ειδικοί επισημειωτές επισημείωσαν 300 προτάσεις από εκθέσεις Ελλήνων μαθητών της Αγγλικής ως ξένη γλώσσα. Πραγματοποιήθηκε επίσης μια συνάντηση για συζήτηση των επισημειώσεων, με στόχο τη ποιοτική ανάλυση των διαφωνιών μεταξύ επισημειωτών. Τα βασικά ευρήματα δείχνουν ότι η συμφωνία μεταξύ επισημειωτών είναι χαμηλή, και κυμαίνεται από περίπου κ =0.30 μέχρι κ = 0.40. To LLM πετυχαίνει ένα παρόμοιο κ score (κ = 0.27) έναντι του μέσου όρου των επισημειωτών, και φαίνεται να συμφωνεί περισσότερο με τους μη-ειδικούς επισημειωτές, παρουσιάζοντας παρόμοια κ scores (0.28). Τα αποτελέσματα αυτά είναι σημαντικά για τη δημιουργία και την ανάπτυξη συστημάτων εκμάθησης ξένων γλωσσών και συστημάτων NLP, καθώς τα LLMs δεν βρίσκονται στο επίπεδο των ειδικών επισημειωτών ακόμη. Η διατριβή καταλήγει στο ότι η αρνητική γλωσσική παρεμβολή θα πρέπει να αντιμετωπίζεται ως διαβαθμισμένο πρόβλημα πολλαπλών επιλογών, αντί για δυαδικό.
Περιγραφή
Λέξεις-κλειδιά
Negative Language Transfer (NLT), Large Language Models (LLMs), Second Language Acquisition (SLA), Natural Language Processing (NLP), Αρνητική γλωσσική παρεμβολή, Μεγάλα γλωσσικά μοντέλα, Εκμάθηση δεύτερης ξένης γλώσσας, Επεξεργασία φυσικής γλώσσας

