Συλλογές
Τίτλος Examining how teacher-student approaches can benefit few-shot learning for toxicity detection tasks
Εναλλακτικός τίτλος Εξετάζοντας πως μπορούν να ωφελήσουν οι προσεγγίσεις καθηγητή-μαθητή τη μάθηση με λίγα δεδομένα εκπαίδευσης για εργασίες ανίχνευσης τοξικότητας
Δημιουργός Αβραμίδου, Ναταλία, Avramidou, Natalia
Συντελεστής Androutsopoulos, Ion
Pavlopoulos, Ioannis
Athens University of Economics and Business, Department of Informatics
Τύπος Text
Φυσική περιγραφή 70p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9994
Περίληψη Η εξέλιξη των social media έχει δηµιουργήσει την ανάγϰη ύπαρξης συστηµάτων που ανιχνεύουν την τοξιϰή συµπεριφορά χρηστών. ΄Ενα σύστηµα Εντοπισµού Τοξιϰότητας προσπαϑεί να εντοπίσει προσβλητιϰές ϰαι υβριστιϰές δηµοσιεύσεις χρηστών. Ο τοµέας της Επεξεργασίας Φυσιϰής Γλώσσας (ΕΦΓ) συµβάλει στην ανίχνευση ϰαϰοποιητιϰού περιεχοµένου, µε µοντέλα ταξινόµησης που ϰατηγοριοποιούν τις αναρτήσεις των χρηστών σε προσβλητιϰές ή µη προσβλητιϰές. Καϑώς η επισηµείωση χιλιάδων παραδειγµάτων είναι µια αϰριβή διαδιϰασία, η αποδοτιϰή εϰπαίδευση τους µε τον ελάχιστο αριϑµό δεδοµένων µε ετιϰέτα πρόϰειται για µία σηµαντιϰή πρόϰληση. Παρά την έλλειψη επαρϰών επισηµειωµένων βάσεων δεδοµένων, συνήϑως, υπάρχει ένα πολύ µεγαλύτερο σύνολο δεδοµένων χωρίς ετιϰέτα για ν ϰάϑε εργασία. Τα δεδοµένα ϑα µπορούσαν να χρησιµοποιηϑούν για τη βελτίωση ενός συστήµατος ταξινόµησης. Σε αυτή τη διπλωµατιϰή ϑα επιϰεντρωϑούµε στον εντοπισµό τοξιϰότητας σε Ελληνιϰά tweets ϰαι τον εντοπισµό σεξιστιϰής συµπεριφοράς σε αναρτήσεις στα Αγγλιϰά. Πολλές µέϑοδοι έχουν διερευνηϑεί για σενάρια µε περιορισµένα δεδοµένα εϰπαίδευσης. Η Αυτό-εϰπαίδευση είναι µία µέϑοδος ϰατά την οποία ένα µοντέλο Καϑηγητής εϰπαιδεύεται αρχιϰά στα λίγα διαϑέσιµα δεδοµένα µε ετιϰέτα. Στη συνέχεια, δηµιουργεί ψευδο-ετιϰέτες για ένα µεγαλύτερο σύνολο µη επισηµειωµένων δεδοµένων. Σε ϰάϑε γύρο επιλέγεται ένας αριϑµός δεδοµένων µε ψευδο-ετιϰέτα, συνήθως µε ϰριτήριο τη πιϑανότητα που δίνει το µοντέλο Καϑηγητής να είναι σωστή η πρόβλεψή του, για να χρησιµοποιηϑούν ως επιπρόσϑετη επίβλεψη στην εϰπαίδευση ενός ισχυρότερου µοντέλου Μαϑητή. Η ∆ιαδραστιϰή Μάϑηση προσπαϑεί να µεγιστοποιήσει την απόδοση ενός συστήµατος προσδιορίζοντας τα µη-επισηµειωµένα δεδοµένα που περιέχουν την πιο χρήσιµη πληροφορία για την εϰµάϑηση της συγϰεϰριµένης εργασίας. Τα δεδοµένα αυτά επιλέγονται ανάµεσα στα δεδοµένα για τα οποία έχει δηµιουργήσει ψευδο-ετιϰέτες το µοντέλο Καϑηγητής. Σε αυτή την εργασία, εστιάσαµε στην εφαρµογή της προσέγγισης Καϑηγητή-Μαϑητή για την ανίχνευση τοξιϰού ϰαι σεξιστιϰού περιεχόµενου όταν τα παραδείγµατα εϰπαίδευσης είναι περιορισµένα. Αϰόµα εφαρµόσαµε ϰριτήρια εµπνευσµένα από την ∆ιαδραστιϰή Μάϑηση στον αλγόριϑµο Αυτό-εϰπαίδευσης για να εξετάσουµε αν µπορούν να αυξήσουν την απόδοση του συστήµατός µας.
Τhe evolution of social media platforms has introduced the need for systems that detect the toxic behavior of users. A Toxicity Detection system tries to detect user posts that are offensive and abusive. The field of Natural Language Processing (NLP) contributes to detecting this hateful content by automating it with classification models that categorize user posts as offensive or not offensive. As annotating thousands of examples for training (NLP) models is expensive, it is a significant challenge to train a model effectively with the least amount of labeled data. Although there is a lack of fully annotated datasets for many different tasks, usually, there is a much larger pool of task-specific unlabeled instances that could be used to improve a system’s performance. In this thesis, we will focus on: toxicity detection in Greek tweets and sexism detection in English posts. There are many methods explored in literature for few-shot learning scenarios. Self-training is a semi-supervised method where a Teacher model is initially trained on the few available labeled instances. Subsequently, it generates silver labels for the bigger pool of task-specific unlabeled data. In each round, it samples a number of silver-labeled examples, in most cases, based on the model’s confidence. These examples and their silver labels act as additional supervision to train a stronger Student model iteratively. Active Learning tries to maximize the system’s performance gain by identifying the most informative examples to be labeled by a human annotator or, in our case, to be selected among those silver-labeled by the Teacher. In this thesis, we focus on applying the Teacher-Student approach to detect toxic and sexist content when the initial training examples are limited. We also employ Active Learning criteria in the Self-training algorithm to examine if they could further benefit our system.Τhe evolution of social media platforms has introduced the need for systems that detect the toxic behavior of users. A Toxicity Detection system tries to detect user posts that are offensive and abusive. The field of Natural Language Processing (NLP) contributes to detecting this hateful content by automating it with classification models that categorize user posts as offensive or not offensive. As annotating thousands of examples for training (NLP) models is expensive, it is a significant challenge to train a model effectively with the least amount of labeled data. Although there is a lack of fully annotated datasets for many different tasks, usually, there is a much larger pool of task-specific unlabeled instances that could be used to improve a system’s performance. In this thesis, we will focus on: toxicity detection in Greek tweets and sexism detection in English posts. There are many methods explored in literature for few-shot learning scenarios. Self-training is a semi-supervised method where a Teacher model is initially trained on the few available labeled instances. Subsequently, it generates silver labels for the bigger pool of task-specific unlabeled data. In each round, it samples a number of silver-labeled examples, in most cases, based on the model’s confidence. These examples and their silver labels act as additional supervision to train a stronger Student model iteratively. Active Learning tries to maximize the system’s performance gain by identifying the most informative examples to be labeled by a human annotator or, in our case, to be selected among those silver-labeled by the Teacher. In this thesis, we focus on applying the Teacher-Student approach to detect toxic and sexist content when the initial training examples are limited. We also employ Active Learning criteria in the Self-training algorithm to examine if they could further benefit our system.
Λέξη κλειδί Αυτοεκπαίδευση
Μηχανική μάθηση
Τοξικότητα
Μοντέλα
Self-training
Machine learning (ML)
Toxicity
Models
Διαθέσιμο από 2023-01-21 14:52:38
Ημερομηνία έκδοσης 30-12-2022
Ημερομηνία κατάθεσης 2023-01-21 14:52:38
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/