Toxicity detection on Greek tweets

Anagnostopoulos, Theodoros

Toxicity detection on Greek tweets

dc.contributor.degreegrantinginstitution	Athens University of Economics and Business, Department of Informatics	en
dc.contributor.thesisadvisor	Pavlopoulos, Ioannis	el
dc.contributor.thesisadvisor	Malakasiotis, Prodromos	en
dc.contributor.thesisadvisor	Vassalos, Vasilios	en
dc.creator	Anagnostopoulos, Theodoros	en
dc.date.accepted	2022-02-04 18:59:24
dc.date.accessioned	2022-02-03	*
dc.date.available	2025-03-26T20:03:11Z
dc.date.submitted	2022-02-03 10:00:06
dc.description.abstract	In this thesis, we experimented with detecting verbally offensive (toxic) greek tweets withgreek & multilingual transformer models. We firstly compared said BERT models on apublicly available greek dataset on toxic tweet detection. Having been trained on that publicdataset, we tested their ability to generalize their knowledge on our newly annotated datasetconstructed, in collaboration with PALOservices. Furthermore, we applied Semi-Supervisedlearning techniques on 10,000 unlabeled data to augment the existing training data, andfurther increase performance on our dataset. We also further pretrained a BERT model on300,000 unlabeled tweets to examine its capacity to learn new tokens and detect toxicity in amore reliable way. Lastly, we experimented with sentiment and emotion in tweets, not only toinvestigate possible correlations with toxicity but also, once again, to maximize our model’spredictive ability on offensive language detection.	en
dc.description.abstract	Στην παρούσα διπλωματική, πειραματιστήκαμε με τον εντοπισμό λεκτικά προσβλητικών(τοξικών) ελληνικών tweets με ελληνικά και πολύγλωσσα μοντέλα μετασχηματιστών (transformers). Αρχικά συγκρίναμε τα εν λόγω μοντέλα BERT σε ένα δημοσίως διαθέσιμο ελληνικό σύνολο δεδομένων για την ανίχνευση τοξικών tweet. Έχοντας εκπαιδευτεί σε αυτότο δημόσιο σύνολο δεδομένων, δοκιμάσαμε την ικανότητά τους να γενικεύουν τις γνώσεις τους στο νέο σχολιασμένο σύνολο δεδομένων μας που κατασκευάσαμε, σε συνεργασία με την PALOservices. Επιπλέον, εφαρμόσαμε τεχνικές ημι-εποπτευόμενης εκμάθησης (Semi-Supervised learning) σε 10.000 μη επισημειωμένα δεδομένα για να αυξήσουμε τα υπάρχοντα δεδομένα εκπαίδευσης και να αυξήσουμε περαιτέρω την απόδοση στο σύνολο δεδομένων μας. Επίσης, εκπαιδεύσαμε (furhter pretraining) ένα μοντέλο BERT σε 300.000μη επισημειωμένα δεδομένα tweets για να εξετάσουμε την ικανότητά του να μαθαίνει νέα διακριτικά και να ανιχνεύει την τοξικότητα με πιο αξιόπιστο τρόπο. Τέλος,πειραματιστήκαμε με το συναίσθημα (sentiment) στα tweets, όχι μόνο για να διερευνήσουμε πιθανές συσχετίσεις με την τοξικότητα, αλλά επίσης, για άλλη μια φορά, για να μεγιστοποιήσουμε την προγνωστική ικανότητα του μοντέλου μας στον εντοπισμό προσβλητικής γλώσσας.	el
dc.embargo.rule	Open access
dc.format.extent	34p.
dc.identifier.uri	https://pyxida.aueb.gr/handle/123456789/10609
dc.identifier.uri	https://doi.org/10.26219/heal.aueb.4382
dc.language	en
dc.rights	CC BY: Attribution alone 4.0
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Ταξινόμηση κειμένου	el
dc.subject	Μετασχηματιστές	el
dc.subject	NLP	en
dc.subject	Text classification	en
dc.subject	Transformers	en
dc.title	Toxicity detection on Greek tweets	en
dc.title.alternative	Εντοπισμός τοξικότητας σε ελληνικά tweets	el
dc.type	Text

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1

Ονομα:: Anagnostopoulos_2021.pdf
Μέγεθος:: 1.35 MB
Μορφότυπο:: Adobe Portable Document Format

Κατεβάστε

Συλλογές

Τμήμα Πληροφορικής

Μεταπτυχιακές Εργασίες