Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Toxicity detection on Greek tweets

Μικρογραφία εικόνας

Ημερομηνία

Συγγραφείς

Anagnostopoulos, Theodoros

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Διαθέσιμο από

Περίληψη

In this thesis, we experimented with detecting verbally offensive (toxic) greek tweets withgreek & multilingual transformer models. We firstly compared said BERT models on apublicly available greek dataset on toxic tweet detection. Having been trained on that publicdataset, we tested their ability to generalize their knowledge on our newly annotated datasetconstructed, in collaboration with PALOservices. Furthermore, we applied Semi-Supervisedlearning techniques on 10,000 unlabeled data to augment the existing training data, andfurther increase performance on our dataset. We also further pretrained a BERT model on300,000 unlabeled tweets to examine its capacity to learn new tokens and detect toxicity in amore reliable way. Lastly, we experimented with sentiment and emotion in tweets, not only toinvestigate possible correlations with toxicity but also, once again, to maximize our model’spredictive ability on offensive language detection.
Στην παρούσα διπλωματική, πειραματιστήκαμε με τον εντοπισμό λεκτικά προσβλητικών(τοξικών) ελληνικών tweets με ελληνικά και πολύγλωσσα μοντέλα μετασχηματιστών (transformers). Αρχικά συγκρίναμε τα εν λόγω μοντέλα BERT σε ένα δημοσίως διαθέσιμο ελληνικό σύνολο δεδομένων για την ανίχνευση τοξικών tweet. Έχοντας εκπαιδευτεί σε αυτότο δημόσιο σύνολο δεδομένων, δοκιμάσαμε την ικανότητά τους να γενικεύουν τις γνώσεις τους στο νέο σχολιασμένο σύνολο δεδομένων μας που κατασκευάσαμε, σε συνεργασία με την PALOservices. Επιπλέον, εφαρμόσαμε τεχνικές ημι-εποπτευόμενης εκμάθησης (Semi-Supervised learning) σε 10.000 μη επισημειωμένα δεδομένα για να αυξήσουμε τα υπάρχοντα δεδομένα εκπαίδευσης και να αυξήσουμε περαιτέρω την απόδοση στο σύνολο δεδομένων μας. Επίσης, εκπαιδεύσαμε (furhter pretraining) ένα μοντέλο BERT σε 300.000μη επισημειωμένα δεδομένα tweets για να εξετάσουμε την ικανότητά του να μαθαίνει νέα διακριτικά και να ανιχνεύει την τοξικότητα με πιο αξιόπιστο τρόπο. Τέλος,πειραματιστήκαμε με το συναίσθημα (sentiment) στα tweets, όχι μόνο για να διερευνήσουμε πιθανές συσχετίσεις με την τοξικότητα, αλλά επίσης, για άλλη μια φορά, για να μεγιστοποιήσουμε την προγνωστική ικανότητα του μοντέλου μας στον εντοπισμό προσβλητικής γλώσσας.

Περιγραφή

Λέξεις-κλειδιά

Επεξεργασία φυσικής γλώσσας, Ταξινόμηση κειμένου, Μετασχηματιστές, NLP, Text classification, Transformers

Παραπομπή

Άδεια Creative Commons