Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Toxicity detection on Greek tweets

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsen
dc.contributor.thesisadvisorPavlopoulos, Ioannisel
dc.contributor.thesisadvisorMalakasiotis, Prodromosen
dc.contributor.thesisadvisorVassalos, Vasiliosen
dc.creatorAnagnostopoulos, Theodorosen
dc.date.accepted2022-02-04 18:59:24
dc.date.accessioned2025-03-26T20:03:11Z
dc.date.available2025-03-26T20:03:11Z
dc.date.submitted2022-02-03 10:00:06
dc.description.abstractIn this thesis, we experimented with detecting verbally offensive (toxic) greek tweets withgreek & multilingual transformer models. We firstly compared said BERT models on apublicly available greek dataset on toxic tweet detection. Having been trained on that publicdataset, we tested their ability to generalize their knowledge on our newly annotated datasetconstructed, in collaboration with PALOservices. Furthermore, we applied Semi-Supervisedlearning techniques on 10,000 unlabeled data to augment the existing training data, andfurther increase performance on our dataset. We also further pretrained a BERT model on300,000 unlabeled tweets to examine its capacity to learn new tokens and detect toxicity in amore reliable way. Lastly, we experimented with sentiment and emotion in tweets, not only toinvestigate possible correlations with toxicity but also, once again, to maximize our model’spredictive ability on offensive language detection.en
dc.description.abstractΣτην παρούσα διπλωματική, πειραματιστήκαμε με τον εντοπισμό λεκτικά προσβλητικών(τοξικών) ελληνικών tweets με ελληνικά και πολύγλωσσα μοντέλα μετασχηματιστών (transformers). Αρχικά συγκρίναμε τα εν λόγω μοντέλα BERT σε ένα δημοσίως διαθέσιμο ελληνικό σύνολο δεδομένων για την ανίχνευση τοξικών tweet. Έχοντας εκπαιδευτεί σε αυτότο δημόσιο σύνολο δεδομένων, δοκιμάσαμε την ικανότητά τους να γενικεύουν τις γνώσεις τους στο νέο σχολιασμένο σύνολο δεδομένων μας που κατασκευάσαμε, σε συνεργασία με την PALOservices. Επιπλέον, εφαρμόσαμε τεχνικές ημι-εποπτευόμενης εκμάθησης (Semi-Supervised learning) σε 10.000 μη επισημειωμένα δεδομένα για να αυξήσουμε τα υπάρχοντα δεδομένα εκπαίδευσης και να αυξήσουμε περαιτέρω την απόδοση στο σύνολο δεδομένων μας. Επίσης, εκπαιδεύσαμε (furhter pretraining) ένα μοντέλο BERT σε 300.000μη επισημειωμένα δεδομένα tweets για να εξετάσουμε την ικανότητά του να μαθαίνει νέα διακριτικά και να ανιχνεύει την τοξικότητα με πιο αξιόπιστο τρόπο. Τέλος,πειραματιστήκαμε με το συναίσθημα (sentiment) στα tweets, όχι μόνο για να διερευνήσουμε πιθανές συσχετίσεις με την τοξικότητα, αλλά επίσης, για άλλη μια φορά, για να μεγιστοποιήσουμε την προγνωστική ικανότητα του μοντέλου μας στον εντοπισμό προσβλητικής γλώσσας.el
dc.embargo.ruleOpen access
dc.format.extent34p.
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/10609
dc.languageen
dc.rightsCC BY: Attribution alone 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΤαξινόμηση κειμένουel
dc.subjectΜετασχηματιστέςel
dc.subjectNLPen
dc.subjectText classificationen
dc.subjectTransformersen
dc.titleToxicity detection on Greek tweetsen
dc.title.alternativeΕντοπισμός τοξικότητας σε ελληνικά tweetsel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Anagnostopoulos_2021.pdf
Μέγεθος:
1.35 MB
Μορφότυπο:
Adobe Portable Document Format