Πλοήγηση ανά Επιβλέπων "Vassalos, Vasilios"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 14 από 14
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Allowing privacy in Distributed Machine Learning Algorithms using SparkPaouris, George; Athens University of Economics and Business, Department of Informatics; Vassalos, VasiliosThe need to handle and process large scale datasets has become apparent in the recent years. As the technology grows, more and more applications generate massive and complex information whether it is from social networks like the Facebook or banks that handle millions of customers. Companies have the need to process and convert massive amounts of data to knowledge and exploit them in order to have a greater perspective of things. Thus, processing such information with machine learning algorithms, demands bigger computing power because of the high intensive procedure. Data mining algorithms in a distributed environment offers great advantages when it comes down to datasets that are evolving in complexity and size. In this thesis, we implement the C4.5 and the DBSCAN algorithms in a distributed environment using various data transfer restrictions. For our implementation, we used the open-source Apache’s Spark framework. We also used a 36-node cluster and real datasets to evaluate the proper function of the algorithms and of our methods.Τεκμήριο Anti money laundering mechanism for banking transactions(2022) Zafeiropoulos, Konstantinos-Efthymios; Ζαφειρόπουλος, Κωνσταντίνος-Ευθύμιος; Athens University of Economics and Business, Department of Informatics; Dellaportas, Petros; Demiris, Nikolaos; Vassalos, VasiliosThe scope of thesis is to create a scalable anti-money laundering (AML) mechanism to detect transactions which can be considered as possible cases of money laundering and are carried out by National Bank of Greece (NBG) customers. Next, potential illegal transactions will be further evaluated by NBG authorized personnel. The main approach involves five main stages.First stage is data collection. All the transaction are not the same. There is plethora of different categories related to the nature of transaction. Hence, main emphasis on this stage was to find categories of transactions with a higher risk of money laundering appearance. The second stage involves feature extraction. Efficient money laundering mechanisms requires insightful features. Representative example is features based on monitoring different aspects of account behavior and its network. Abnormal behavior or network indicates higher probability of money laundering. Therefore, main emphasis on this stage was by utilizing the relevant theory to extract these types of features. The third stage is model selection. Given the fact that the specific task belongs to the sphere of unsupervised learning, the main idea is the creation of insightful features from the second stage to lead potential illegal transactions to be seen as outliers in vector space. Hence, main emphasis on this stage was by utilizing the relevant theory to choose unsupervised models which can detect outliers and simultaneously being computationally efficient. The fourth stage included a fine-tuning process upon different combinations of feature sets and models. Then, based on majority vote, scores were extracted. The final stage included the process of scores through visualization and statistical techniques which determined if the transaction was legal or illegal.Τεκμήριο Applying machine learning models & algos for prediction of stock market movements & optimization of market investment strategies. The derivation & comparison of 2 investment strategies on US stocks(12/01/2021) Diakos, Stefanos; Διάκος, Στέφανος; Athens University of Economics and Business, Department of Informatics; Louridas, Panagiotis; Dellaportas, Petros; Vassalos, VasiliosΣυνδυάζοντας σημαντικές γνώσεις από τα χρηματοοικονομικά και την ανάλυση δεδομένων, αυτή η διπλωματική εργασία θα αναπτύξει δυο στρατηγικές που χρησιμοποιούν μοντέλα μηχανικής μάθησης για την πρόβλεψη και την κατασκευή επικερδών μετοχικών χαρτοφυλακίων. Ο σκοπός αυτής της διπλωματικής εργασίας είναι να επιδείξει πως τα μοντέλα μηχανικής μάθησης μπορούν να εφαρμοστούν στην χρηματοοικονομική ανάλυση και να παράγουν πολύτιμη πληροφορία που θα επιφέρει σημαντικά οφέλη στους επενδυτές.Σαν μια στοιχειώδη εισαγωγή, η πρώτη προτεινόμενη στρατηγική αφορά την πρόβλεψη της εβδομαδιαίας κατεύθυνσης πολλαπλών μετοχών με την χρήση διαφόρων μεθόδων classification. Στην συνέχεια, μόλις γίνουν οι προβλέψεις κατεύθυνσης κατασκευάζεται ένα χαρτοφυλάκιο που περιλαμβάνει τις μετοχές που έχουν την μεγαλύτερη πιθανότητα για ανοδική/καθοδική κίνηση. Η δεύτερη προτεινόμενη στρατηγική συνδυάζει έναν αλγόριθμο clustering με μία στρατηγική momentum.Τεκμήριο Behavioral scorecard using machine learning techniques(2021) Anastasopoulos, Nikolaos; Αναστασόπουλος, Νικόλαος; Athens University of Economics and Business, Department of Informatics; Karlis, Dimitrios; Louridas, Panagiotis; Vassalos, VasiliosIn the context of credit scoring, behavioral scorecards are used by financial institutions over time, in order to monitor the performance of their existing clients. Scorecards are used to generate clients’ scores based on their behavior in relationship with their financial institution. For such a crucial decision, past demographic and financial data of clients (behavioral characteristics) are important to be collected so as to build an automated behavioral score prediction model, based on a machine learning classifier or statistical models using machine learning techniques. The present work, focuses on collecting and sampling the appropriate data, cleaning, and performing the necessary preprocessing steps, feature selection using univariate and supervised wrapper techniques, and model development, based on baseline classifiers (Logistic Regression, Decision Trees, Random Forest). Traditional approaches of Weight of Evidence and Information Value criterions for credit scoring are also examined. After analysis, the best performing classifier will be used in order to create a scorecard that will be able to generate scores based on clients’ characteristics.Τεκμήριο Credit limit optimization using Markov decision processes and double deep Q networks(01/25/2022) Katsampalos, Ilias; Κατσάμπαλος, Ηλίας; Athens University of Economics and Business, Department of Informatics; Zois, Georgios; Koutsopoulos, Iordanis; Vassalos, VasiliosOptimal Credit Limit assignment is an important drive towards profitability. Notonly does it increase the accrued revenue, by extending the credit limit of profitableaccounts, but also reduces the losses, by capping the utilization of high-risk accounts.This thesis addresses the problem of optimal credit limit assignment using a MarkovDecision Process, as a discrete-state approach, as well as a Double Deep Q Network,as a continuous-state approach.For defining the 3-dimensional state-space, a risk model, a disengagement model,as well as the credit limit of the account were used. The risk model developed, derivesthe probability of an account being delinquent for more than 30 days, whereas thedisengagement model derives the probability of an account becoming inactive.After the implementation of the two optimization methods, the best policies wereevaluated using Monte Carlo methods. In particular, the scenarios of ”Best-Policy”and ”No-Action” were compared. For both the Markov Decision Process method aswell as the Double Deep Q Networks, the ”Best-Policy” scenario outperforms the”No-Action” scenario with a percentage difference over 50%.Τεκμήριο Electricity consumption timeseries forecasting: statistical, machine and deep learning methods(13-12-2022) Κουμεντάκος, Άγις-Γεώργιος; Koumentakos, Agis-Georgios; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Papastamoulis, Panagiotis; Vassalos, VasiliosΗ καθυστέρηση της εξάπλωσης των έξυπνων μετρητών στους καταναλωτές χαμηλής τάσης πανευρωπαϊκά, παρατείνει το πρόβλημα πρόβλεψης της κατανάλωσης ηλεκτρικής ενέργειας. Ανάμεσα στους άμεσα επηρεαζόμενους βρίσκονται και οι προμηθευτές ηλεκτρικής ενέργειας της Λιανικής Αγοράς (Προμηθευτές), οι οποίοι προμηθεύουν με ρεύμα τους τελικούς καταναλωτές. Η παρούσα μελέτη αναπτύσσει ένα μοντέλο πρόβλεψης της μηνιαίας κατανάλωσης ηλεκτρικής ενέργειας για τον μεγαλύτερο Προμηθευτή στην Ελληνική Δημοκρατία (Ελλάδα). Ο Προμηθευτής διαθέτει ένα χαρτοφυλάκιο με περισσότερους από 4,6 εκατομμύρια μετρητές (παροχές), οι οποίοι επί του παρόντος τιμολογούνται κάθε δύο μήνες με βάση τις εκτιμήσεις κατανάλωσης και κάθε τέσσερις μήνες με βάση τη μέτρηση του Διαχειριστή του Ελληνικού Συστήματος Διανομής (ΔΣΔ). Ελλείψει έξυπνων μετρητών, τα πραγματικά δεδομένα κατανάλωσης είναι διαθέσιμα μόνο μέσω της επιτόπιας καταμέτρησης από κλιμάκια του ΔΣΔ. Ως αποτέλεσμα τα δεδομένα αποτελούνται από καταμετρήσεις που ποικίλουν τόσο ως προς την περίοδο αναφοράς όσο και ως προς τη διάρκεια της περιόδου αυτής για κάθε καταναλωτή. Σε αντίθεση με την πλειονότητα της υπάρχουσας βιβλιογραφίας, σχετικά με την πρόβλεψη χρονοσειρών κατανάλωσης ηλεκτρικής ενέργειας, η οποία είτε κάνει πρόβλεψη μιας μονοδιάστατης χρονοσειράς, είτε πολλών ‘παράλληλων’ χρονοσειρών με τι μορφή μίας πολυδιάστατης χρονοσειράς, η παρούσα μελέτη χρησιμοποιεί τη μέθοδο των πολλαπλών μονοδιάστατων / πολυδιάστατων χρονοσειρών. Αυτή η μέθοδος δίνει την δυνατότητα της εκπαίδευσης ενός μοντέλου επί πολλαπλών χρονοσειρών διαφορετικού μεγέθους και περιόδου αναφοράς, καθιστώντας την ιδανική για το παρόν πρόβλημα. Το πρόβλημα μοντελοποιείται ως πρόβλεψη πολλαπλών χρονοσειρών (multiple timeseries) μηνιαίων δεδομένων κατανάλωσης ηλεκτρικής ενέργειας, σε δείγμα περίπου εννέα χιλιάδων πραγματικών καταναλωτών, με δεδομένα κατανάλωσης από το 2018 έως το 2022. Η ανάγκη του Προμηθευτή για μηνιαίες προβλέψεις, συν του γεγονότος ότι οι μετρήσεις γίνονται αθροιστικά σε τετραμηνιαίες περιόδους, απαιτεί την επαύξηση-μετασχηματισμό (augmentation) των αρχικών δεδομένων σε μηνιαία. Η παρούσα μελέτη εξετάζει τόσο τις κλασικές μεθόδους στατιστικής, όσο και αυτές της μηχανικής μάθησης (MM) και της βαθιάς μάθησης (BM). Τα αποτελέσματα δείχνουν ότι ένα μοντέλο πολλαπλών μονοδιάστατων χρονοσειρών LightGBM, ξεπερνά το υπάρχον μοντέλο του ΔΣΔ, καθώς και μοντέλα μηχανικής και βαθιάς μάθησης, επιτυγχάνοντας περίπου 23% και 14% βελτίωση της πρόβλεψης όσον αφορά τις μετρικές RMSE και MAPE αντίστοιχα, σε εκτός δείγματος δεδομένα. Επιπλέον, τα αποτελέσματα υποδεικνύουν ότι τα μοντέλα πολλαπλών χρονοσειρών επιτυγχάνουν καλύτερες επιδόσεις, από τα μοντέλα μονής χρονοσειράς, τόσο όσον αφορά τις προβλέψεις δεδομένων εκτός δείγματος όσο και στον χρόνο εκτέλεσης (συμπεριλαμβανομένων των χρόνων εκπαίδευσης και πρόβλεψης).Τεκμήριο Finetuning of open source LLMs for specific domains(07-03-2024) Stavropoulos, Christos; Σταυρόπουλος, Χρήστος; Athens University of Economics and Business, Department of Informatics; Vrontos, Ioannis; Androutsopoulos, Ion; Vassalos, VasiliosΤα μεγάλα γλωσσικά μοντέλα επιδεικνύουν εξαιρετικές δυνατότητες στην κατανόηση της γλώσσας, παρουσιάζοντας υψηλές επιδόσεις σε διάφορες εργασίες επεξεργασίας φυσικής γλώσσας. Ωστόσο, η απόδοσή τους συχνά μειώνεται σε εξειδικευμένους τομείς, όπως το δίκαιο, η υγειονομική περίθαλψη και τα οικονομικά, λόγω της εξειδικευμένης ορολογίας και της σύνθετης χρήσης της γλώσσας σε αυτούς τους τομείς. Η απόδοσή τους μπορεί να βελτιωθεί περαιτέρω προσαρμόζοντας αυτά τα μοντέλα σε συγκεκριμένους τομείς ή εργασίες μέσω μιας διαδικασίας που ονομάζεται finetuning. Στη παρούσα διπλωματική θα ερευνήσουμε την δυνατότητα αναπαραγωγής προσαρμοσμένων μοντέλων στα χρηματοοικονομικά, διερευνάμε επίσης πιθανές βελτιώσεις και αξιολογούμε την αποτελεσματικότητα της προσαρμογής. Τέλος θα εξετάσουμε τις δυνατότητες προσαρμογής στον τομέα του Ανθρώπινου Δυναμικού.Τεκμήριο Fraud detection for internet and mobile banking(07/08/2020) Boulieris, Petros; Μπουλιέρης, Πέτρος; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Androutsopoulos, Ion; Vassalos, VasiliosIn recent years, internet and mobile banking platforms made it possible for clients to manage their bank accounts and make transactions from anywhere, at any time. However, despite the many benefits they offer, they also made it possible for fraudsters to gain access to a client’s account in new ways. It is crucial to customer confidence in these alternative channels that instances of fraud are detected immediately and blocked or, at least, flagged. This thesis proposes a fraud detection system to detect fraudulent transactions based on the temporal convolutional neural network architecture. The advantage of this model lies in using dilated convolutions to extract meaningful information from usage patterns. The architecture of the winning model consists of an embedding layer, a temporal convolution layer with 32 filters, dilated convolutions, batch normalization, a concatenation layer and 4 fully connected layers. The experimental results show that this model outperforms other candidate architectures that were tested in terms of precision and recall scores, and can potentially serve as a classifier, or as a screening tool to assist a human evaluator.Τεκμήριο Gaussian processes for modelling wind turbine power curves(12/03/2021) Ladopoulou, Domniki; Λαδοπούλου, Δομνίκη; Athens University of Economics and Business, Department of Informatics; Karlis, Dimitrios; Zois, Georgios; Dellaportas, Petros; Vassalos, VasiliosModelling wind turbine power curves is a hugely important problem in management and monitoring wind power on wind farms. Such models are commonly utilised (i) to report to the authorities the energy that the wind farm will deliver to the national provider, (ii) to provide a tool to monitor the good functionality/operation of each wind turbine by comparing the expected and observed output power, (iii) to evaluate the wind farm development in a location in which only weather characteristics have been measured and (iv) to impute missing data of a wind turbine that has temporarily stopped without deleting the data of the other turbines. We provide a novel approach based on multi-task Gaussian processes that provides probabilistic answers to the above questions and we demonstrate that it outperforms single-task Gaussian process modelling. Our final model specification predicts the joint density of power curves for given wind speeds, wind directions, temperature and air pressure.Τεκμήριο Intent classification & slot filling for a task oriented dialog system(13-12-2022) Σκόνδρας, Αλέξανδρος; Skondras, Alexandros; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Vassalos, VasiliosΈνα από τα κύρια ενδιαφέροντα της τεχνολογικής εξέλιξης είναι η αυτοματοποίηση. Μεγάλο μέρος αυτής περιλαμβάνει την ανάπτυξη προηγμένων συστημάτων διαλόγου, που εξυπηρετούν συγκεκριμένους σκοπούς με επίκεντρο το χρήστη. Η Κατανόηση Φυσικής Γλώσσας (ΚΦΓ), ένας κλάδος της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ), είναι υπεύθυνος για τη μελέτη και βελτίωση αυτών των συστημάτων. Στην παρούσα πτυχιακή εργασία, εστιάζοντας στα αντικείμενα της ΚΦΓ, Αναγνώριση Πρόθεσης (ΑΠ) και Συμπλήρωση Θέσης (ΣΘ), πειραματιζόμαστε με διαφορετικές προσεγγίσεις στα δημόσια αρχεία δεδομένων, ATIS και SNIPS. Σε αυτές τις προσεγγίσεις αντιμετωπίζουμε τα ΑΠ και ΣΘ, τα οποία είναι ιδιαίτερα συσχετισμένα, και ανεξάρτητα και μαζί. Με αυτές τις διαφορετικές στρατηγικές μοντελοποίησης, επιβεβαιώνουμε την κυριαρχία των προεκπαιδευμένων γλωσσικών μοντέλων, όπως το BERT, ενώ ταυτόχρονα κάνουμε μια γενική σύγκριση διαφόρων δημοσιευμένων προεκπαιδευμένων μοντέλων. Επιπροσθέτως, επιχειρούμε να τα συνδέσουμε με μια δομή Κωδικοποιητή-Αποκωδικοποιητή ιδιαίτερου ενδιαφέροντος ξεπερνώντας την ανάγκη για ευθυγράμμιση ετικετών θέσης. Εκτός από προεκπαιδευμένα μοντέλα, αξιοποιούμε την ίδια δομή Κωδικοποιητή-Αποκωδικοποιητή και προσπαθούμε να τη βελτιώσουμε μελετώντας την επιρροή που έχουνε πάνω της ρυθμιστικές αλλαγές στην εισακτέα τιμή του αποκωδικοποιητή του ΣΘ. Κατά τη διαδικασία αυτή, χρησιμοποιείται ένας μηχανισμός προσοχής.Τεκμήριο Matching of structure entities among unreliable sources(01/14/2021) Chatzilygeroudi, Georgia; Χατζηλυγερούδη, Γεωργία; Athens University of Economics and Business, Department of Informatics; Xylomenos, George; Kotidis, Yannis; Vassalos, VasiliosData integration is the problem of merging data for a real word entity from different sources and providing the user a single representation of that data. Multiple sources provide information about entities that may not be reliable or may have incomplete data. That is, for the same entity there might be conflicts among the sources. A real world entity can be many things, for example, a person, an item, a place, an event etc. The task of data integration is essential in real world applications and very important for companies, where data sets are being produced independently by multiple researchers. This thesis concerns the development of a data integration system that can handle the presence of data conflicts. We focus on entity resolution and data fusion, the two key elements of data integration. Entity resolution or duplicate detection is the problem of identifying different records that refer to the same real-world entity. Data fusion is the problem of detecting inconsistencies among data sources by estimating their accuracy. We first provide fundamental information for data integration process and an overview of related fields. Second, we present a data integration related system that we developed as an extension and improvement of an existing code (that implements data integration steps, proposed by Dr. Rekatsinas). Moreover, a code was developed to generate data (as training and test sets) adapted to the requirements of the problem. Finally, we present our experiments for the evaluation of our system and corresponding metrics, which show a significant improvement to the results of the initial system (code).Τεκμήριο Neural architectures for question answering in dialogs(14-12-2022) Σφακιανάκης, Παντελεήμων; Sfakianakis, Panteleimon; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Papastamoulis, Panagiotis; Vassalos, VasiliosΤα τελευταία χρόνια, το Conversational Question Answering (CQA) αποτελεί ενα πεδίο το οποίο έχει αποκτήσει δημοτικότητα στον τομέα της Επεξεργασίας Φυσικής Γλώσσας. Κυρίαρχο ρόλο σε αυτό διαδραμάτισε η δημιουργία μεγάλης κλίμακας συνόλων δεδομένων με συζητήσεις ερωτοαπαντήσεων οπως το QuaC και το CoQΑ. To CQA καλεί το μηχάνημα να “καταλάβει" ένα δοσμένο κείμενο και να συμμετάσχει σε ένα διάλογο. Αυτό αποτελεί μια προέκταση του κλασικού συστήματος ερωτοαπαντήσεων το οποίο απευθύνεται σε μια ερώτηση κάθε φορά, με τη διαφορά ότι στην περίπτωση του CQA πρέπει να μοντελοποιηθεί και η ιστορία της συζήτησης. Σε αυτή τη διπλωματική, θα συζητηθεί ένα μοντέλο ολικής μοντελοποίησης της ιστορίας (GHR model). Τα μοντέλα που χρησιμοποιήθηκαν στα πειράματα μας είναι πολύ μεγάλα προεκπαιδευμένα μοντέλα όπως το BERTLarge και το RoBERTALarge. Προκειμένου να κάνουμε τη διαδικασία της εκπαίδευσης των παραμέτρων πιο αποδοτική, χρησιμοποιήθηκαν οι bottleneck adapters. Οι bottleneck adapters είναι στρώματα (layers) τα οποία εισάγονται μέσα στα block των transformer μοντέλων. Κατά τη διάρκεια της εκπαίδευσης, όλοι οι παράμετροι από το transformer μοντέλο παραμένουν παγωμένοι χωρίς να μεταβάλλονται και ανανεώνονται μόνο τα στρώματα των bottleneck adapters. Η εκπαίδευση του GHR μοντέλου με BERTLarge και RoBERTaLarge επιτυγχάνει 68.5 και 72.9 F1 αντίστοιχα. Με τη χρήση των adapters το F1 γίνεται 67.6 για το BERTLarge και 73.6 για το RoBERTaLarge. Επομένως, με τη χρήση των adapters καταφέραμε να έχουμε μια παρόμοια επίδοση για το BERT μοντέλο και βελτιωμένα αποτελέσματα για το RoBERTa μοντέλο χρησιμοποιώντας σημαντικά λιγότερες παραμέτρους. Πρέπει να σημειωθεί ότι τα παραπάνω αποτελέσματα αναφέρονται στο development set του QuAC, το οποίο αποτελεί το σύνολο δεδομένων που χρησιμοποιήσαμε για τα πειράματα μας. Το καλύτερο μας μοντέλο με ενσωματωμένους τους adapters έχει υποβληθεί για επίσημη αξιολόγηση στο hidden test set του QuAC.Τεκμήριο Schema matching, schema mapping and data exchange: modification and extension of the open source tool, ++SpicyVouziou, Evelyn; Athens University of Economics and Business, Department of Informatics; Vassalos, VasiliosData Integration is the broad and complex scientific field, which copes with semantic heterogeneity, via techniques of adaptive and/or federated query processing, operatingon architectures, which vary from a materialized repository or data warehouse, to a completely virtual infrastructure. Overall, Data Integration aims to increase the completeness, conciseness, and correctness of data that is available to users and applications; fact, which describes the need for quality driven modeling of the data to be integrated and the procedures, which would best achieve integration. There are many both academic and commercial tools, addressing the challenging enterprises’ environment or particular information technology domains. At the core of Data Integration lie the processes of schema matching, (as the generation of semantic correspondences between heterogenous data), schema mapping (as the consolidation and translation of these correspondences for the unification over the source and target schemata) and data exchange (as the detection of the best schema target and the processing of schema mappings to executable queries on the source). Spicy, a research project at University of Basilicata, Italy, performed simultaneous schema matching and mapping, letting the user validate the mappings via the interface (helping her choose among the different candidate mappings), using a first generation schema mapping algorithm. Schema mappings are expressed as sets of tuple generated dependencies, and schemata were relational or nested relational. Spicy also required source and target instances, enriching the user’s reasoning on the mapping task. Spicy later evolved into the +Spicy tool, which also performs rewriting of the tuple generating dependencies, eliminating redundancy, generating runtime scripts; for an instances input, the output is core solutions. Later, ++Spicy was developed, and provided as an open source tool, which uses equality generating dependencies, as target functional dependencies –constraints for the generation of executable scripts, and provides global solutions to the data exchange problem for other nested data models as well, apart from the relational and nested relational. In this thesis, ++Spicy was modified and extended, by the implementation of various functional requirements, such as: the optional (previously mandatory) import of source instances, the full operability support over extra types of data sources (in CSV and SQL files format), the import of correspondences in a conjunctive way, graphically and via an editor. Aiming at the tasks’ implementation, refactoring and redesign were necessary, also allowing its further integration with other tools. The in depth study of, and hands on experience with ++Spicy also led to the tool’s evaluation in terms of software engineering, useful for further work regarding redesign and implementation.Τεκμήριο Toxicity detection on Greek tweetsAnagnostopoulos, Theodoros; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Malakasiotis, Prodromos; Vassalos, VasiliosIn this thesis, we experimented with detecting verbally offensive (toxic) greek tweets withgreek & multilingual transformer models. We firstly compared said BERT models on apublicly available greek dataset on toxic tweet detection. Having been trained on that publicdataset, we tested their ability to generalize their knowledge on our newly annotated datasetconstructed, in collaboration with PALOservices. Furthermore, we applied Semi-Supervisedlearning techniques on 10,000 unlabeled data to augment the existing training data, andfurther increase performance on our dataset. We also further pretrained a BERT model on300,000 unlabeled tweets to examine its capacity to learn new tokens and detect toxicity in amore reliable way. Lastly, we experimented with sentiment and emotion in tweets, not only toinvestigate possible correlations with toxicity but also, once again, to maximize our model’spredictive ability on offensive language detection.