Πλοήγηση ανά Επιβλέπων "Pavlopoulos, Ioannis"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 19 από 19
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Beyond words: a survey of online conversation metrics(31-10-2024) Μυρτζανή, Δανάη; Myrtzani, Danai; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Konstantinidou, Maria; Pavlopoulos, Ioannis; Korre, KaterinaΗ παρούσα διπλωματική εργασία εξετάζει τον τρόπο με τον οποίο αξιολογούνται οι διαδικτυακές συζητήσεις μέσω δύο προσεγγίσεων: μια συστηματική έρευνα των μετρικών αξιολόγησης και μια πειραματική σύγκριση μεταξύ ανθρώπων - αξιολογητών και Μεγάλων Γλωσσικών Μοντέλων (ΜΓΜ). Η βιβλιογραφική επισκόπηση εντοπίζει 22 διακριτές μετρικές, οι οποίες κατηγοριοποιούνται σε ομάδες Δομής και Λογικής, Κοινωνικής Δυναμικής, Συναισθηματικής και Συμπεριφορικής, και Δέσμευσης και Περιεχομένου. Ενώ οι μετρικές που βασίζονται στη δομή επιχειρημάτων και στην πραγματολογία αναδεικνύονται ως οι πιο συχνά μελετημένες, η ανάλυση αποκαλύπτει μια αυξανόμενη εστίαση στα κοινωνικά και συγκυριακά στοιχεία στην αξιολόγηση συνομιλιών στην πρόσφατη βιβλιογραφία.Η πειραματική μελέτη συγκρίνει τον τρόπο με τον οποίο οι άνθρωποι και τα ΜΓΜ αξιολογούν τις ίδιες διαδικτυακές συζητήσεις, αποκαλύπτοντας βασικές διαφορές στα πρότυπα αξιολόγησής τους. Οι ανθρώπινοι αξιολογητές επιδεικνύουν μεγαλύτερη ευαισθησία στην κοινωνική δυναμική, ιδίως στον εντοπισμό αρνητικών συμπεριφορών όπως η αγένεια και η κυριαρχία, ενώ τα ΜΓΜ υπερέχουν στον εντοπισμό δομικών στοιχείων αλλά συχνά παραβλέπουν αυτές τις λεπτές κοινωνικές ενδείξεις. Τα ευρήματα αναδεικνύουν ένα σημαντικό χάσμα μεταξύ υπολογιστικών και ανθρώπινων προσεγγίσεων στην αξιολόγηση συνομιλιών, γεγονός που υποδηλώνει ότι τα αποτελεσματικά πλαίσια αξιολόγησης πρέπει να εξισορροπούν και τις δύο οπτικές γωνίες για να αποτυπώσουν την πλήρη πολυπλοκότητα των διαδικτυακών συζητήσεων.Η παρούσα έρευνα συμβάλλει στην κατανόηση της αξιολόγησης των διαδικτυακών συνομιλιών με τη συστηματική χαρτογράφηση των υφιστάμενων μετρικών και την επίδειξη του τρόπου με τον οποίο οι διαισθητικές αξιολογήσεις των καθημερινών αναγνωστών διαφέρουν από τις υπολογιστικές προσεγγίσεις. Οι γνώσεις αυτές έχουν πρακτικές επιπτώσεις για την ανάπτυξη αποτελεσματικότερων εργαλείων αξιολόγησης συνομιλιών και τη βελτίωση των συστημάτων συντονισμού διαδικτυακών κοινοτήτων.Τεκμήριο Brand-based sentiment analysis(2021) Ormyliotou, Georgia; Ορμυλιώτου, Γεωργία; Pavlopoulos, Ioannis; Athnes University of Economics and Business, Department of InformaticsIn this thesis, machine and deep learning models were applied in order to improve sentiment analysis on brand-specific texts. As a side task, Named-Entity Recognition experiments took place in order to analyze the brand name detection and possibly use the model as a Brand-Entity Recognition system, a brand-focused version of NER. For the purposes of NER, the pre-trained algorithms of SpaCy and Greek BERT-NER were used and, then, the Greek BERTbased model was fine-tuned using our dataset. With respect to sentiment analysis, the following machine learning algorithms were initially trained, Random Forests, Multinomial Naive Bayes, Logistic Regression and Linear SVC. Then, deep learning architectures were implemented such as BiGRU and CNN and in the end, we experimented with transformers such as BERT and XLM-RoBERTa (XLM-R). Considering this as the text-level sentiment estimation, a brand-level sentiment estimation was developed making use of the brand information in two ways. The first one is by feeding the brand to the model (input) and the second one is estimating the brand (output) alongside sentiment, using multi-task learning. The results have shown that there is a correlation between the brand and the sentiment, which as a feature should not be defied.Τεκμήριο Capturing temporal patterns in deliberations and discussions(26-11-2024) Μπαλής, Ραφαήλ; Mpalis, Rafail; Athens University of Economics and Business, Department of Informatics; Stafylakis, Themos; Vassalos, Vasilios; Pavlopoulos, IoannisΗ παρούσα διπλωματική εργασία διερευνά καινοτόμες προσεγγίσεις για τη σύνοψη και την απεικόνιση σχολίων (αναρτήσεων) από διαδικτυακές συζητήσεις και αξιολογήσεις, χρησιμοποιώντας έναν συνδυασμό παραδοσιακών μεθόδων μηχανικής μάθησης και Μεγάλων Γλωσσικών Μοντέλων γνωστά και ως “LLMs”. Η έρευνα επικεντρώνεται σε μεθόδους που περιλαμβάνουν ομαδοποίηση βάσει χρονικής σήμανσης, συσταδοποίηση, εξαγωγή θεμάτων και σύνοψη βάσει ετικετών (labeling), με στόχο τη βελτίωση της επεξεργασίας διαδικτυακών συζητήσεων ή σχολίων χρηστών. Εφαρμόζοντας αυτές τις μεθόδους σε διάφορα σύνολα δεδομένων, αξιολογούμε την απόδοσή τους χρησιμοποιώντας μετρικές όπως BLEU, ROUGE και BERTscore. Τα αποτελέσματα καταδεικνύουν την αποτελεσματικότητα των μοντέλων “Transformer”, ιδιαίτερα όταν συνδυάζονται με προηγμένες τεχνικές Μηχανικής Μάθησης, στη δημιουργία συνεκτικών και ακριβών συνοψίσεων. Η μελέτη αυτή συμβάλλει στην ανάπτυξη αποδοτικών αυτοματοποιημένων τεχνικών σύνοψης, προσφέροντας πολύτιμες γνώσεις για εφαρμογές σε πραγματικό χρόνο και επεξεργασία περιεχομένου συγκεκριμένων τομέων.Τεκμήριο Chat-AI optimization using machine learning approaches(14-05-2024) Καφαντάρης, Αλέξης; Kafantaris, Alexis; Athens University of Economics and Business, Department of Informatics; Vassalos, Vasilios; Stafylakis, Themos; Pavlopoulos, IoannisΑυτή η διατριβή αφορά την ομαδοποίηση δεδομένων αποτυχημένης απόκρισης Α.Ι. συνομιλίας που λειτουργούν σε συχνή βάση ερωτήσεων-απαντήσεων. Επιπλέον, κάθε υλοποίηση προϋποθέτει συγκεκριμένες παροχές που χρειάζεται να απευθυνθούν, πάντα σύμφωνα με τις ανάγκες και την πολιτική του marketing της επιχείρησης. Ένας από τους πιο σημαντικούς παράγοντες στην υλοποίηση ενός A.I. είναι η εξατομίκευση της απάντησης και η δυνατότητα συνεχούς επέκτασης βάσης. Για το λόγο αυτό, υπάρχει πρακτικα απαίτηση να αναθεωρείται και να επανεξετάζονται τα συχνά Q-A. Επιπλέον, σε αρκετες περιπτώσεις ερωτήσεων τα θέματα έχουν επιλυθεί, αλλά δεν αναγνωριζεται η πρόθεση συνομήλιας. Μολονότι το συνολικό ποσοστό επιτυχίας είναι ψηλό, συνέχεια καιροφυλακτεί ο κίνδυνος για υπερφόρτωση του τηλεφωνικου κεντρου απο τον αριθμο πολλων αναπάντητων ερωτημάτων. Ένα σημαντικό ζήτημα του Α.Ι. λοιπόν είναι η ικανότητα των αλγορίθμων ομαδοποίησης να βελτιώσουν τη συλλογη αγνωστων ερωτημάτων. Επιπλέον, ακόμα και τα σύγχρονα μεγάλα γλωσσικά μοντέλα δεν ενδείκνυνται για ομαδοποίηση κι ουτε δούλευαν ικανοποιητικά. Το πρόβλημα ξεκινούσε από τη φύση των δεδομένων που δεν αναγνωρίζονται από το σύστημα. Από τη μια υπάρχουν θέματα που δεν έχουν λυθεί, ενώ από την άλλη είναι κάποια από λυμένα θέματα που παρερμηνευονται. Ως επι τουτου, για την συλλογή νέων δεδομενων από ερωτήσεις που δεν απαντήθηκαν προτείνεται ένας αλγόριθμος διαμερισματοποίησης. Βασιζόμενος σε υπαρχοντα προγραμματα, ο αλγόριθμος αυτος είναι ένας απλός και κομψος τροπος που προκυπτει τελειως λογικα. Τέλος, αυτό προτείνεται σα μια βελτιωμένη υλοποίηση του δηικου προγράμματος της Clustering Using SIlhouette Coefficient, δηλαδή του CLUSCO. Εν τέλει, πειραματικά αποτελέσματα του προγράμματος Sequence Matching Silhouette Coefficient Clustering, δηλαδή του προτεινομενου SMSCC αξιολογούνται και ερμηνεύονται. Τελικά, ένα συχνό πρόβλημα αλγορίθμων ομαδοποίησης στη μηχανικης μαθησης αντιμετωπίζεται. Μέχρι τώρα κανείς δεν ήξερε γιατί τα τεχνητά δεδομένα ειναι σχεδον αδύνατο να ομαδοποιηθούν. Κατα συνεπεια, απο τα αποτελεσματα που προκυπτουν δινεται μια συντομη διαισθητική ερμηνεία για το σχετικό πρόβλημα καθως και οι λογικές επιπλοκές που μας περιορίζουν.Τεκμήριο Chronological attribution of papyri using machine learning(12/21/2021) Paparrigopoulou, Asimina; Παπαρρηγοπούλου, Ασημίνα; Athens University of Economics and Business, Department of Informatics; Konstantinidou, Maria; Pavlopoulos, Ioannis; Androutsopoulos, Ion; Konstantinidou, Maria; Pavlopoulos, IoannisDating papyri accurately is crucial not only to editing their texts, but also for our understanding of palaeography and the history of writing, ancient scholarship, material culture, networks in antiquity, etc. Most ancient manuscripts offer little evidence regarding the time of their production, forcing papyrologists to date them on palaeographical grounds, a method often criticized for its subjectivity. In this thesis, with data obtained from the Collaborative Database of Dateable Greek Bookhands (https://www.baylor.edu/classics/index.php?id=958430, Baylor University) and the PapPal (http://www.pappal.info/, University of Heidelberg) online collections of objectively dated Greek papyri, we created two datasets of literary papyri and documents respectively, which can be used by machines for the task of computational papyri dating. By experimenting with this datasets, we showed that deep learning dating models, pre-trained on generic images and fine-tuned on a training subset of the data, can achieve accurate chronological estimates for a test subset (69.93% accuracy for bookhands and 56.76% for documents). To compare the estimates of our models with those of humans, experts were asked to complete a questionnaire with samples of literary and documentary hands that had to be sorted chronologically by century. The same samples were dated by the models in question. This paper presents and analyses the results, which show that in some cases the estimates of our models do not deviate from the actual date more than those of humans.Τεκμήριο Computational analysis of Greek Parliamentary Minutes of the period 1946-1947(13-12-2022) Μπαρμπούνης, Επαμεινώνδας-Κωνσταντίνος; Barmpounis, Epameinondas-Konstantinos; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Louridas, Panagiotis; Pavlopoulos, IoannisΣκοπός της παρούσας μεταπτυχιακής εργασίας είναι να μελετηθεί η αποδοχή του κοινού της Βουλής των Ελλήνων στα λεχθέντα των από του βουλευτικού βήματος ρητόρων κατά τη διάρκεια των ετών 1946 και 1947. Οι στόχοι είναι πολλαπλοί. Αρχικά επιδιώκεται η δημιουργία ενός μηχαναγνώσιμου corpus κειμένων που θα αποτελείται από τα ίδια τα πρακτικά. Δεύτερον η καταγραφή των ονομάτων των ρητόρων που με τα λόγια τους και με τα θέματα που προσέγγισαν προκάλεσαν την αποδοχή της Βουλής. Τελικά η καταγραφή των ίδιων των θεμάτων που φαίνεται να αποδέχεται (συνήθως με ενθουσιασμό), το κοινό. Σε μια τόσο τεταμένη και ασταθή περίοδο όσο αυτή των πρώτων μεταπολεμικών χρόνων, η ένταξη των θεμάτων αυτών στον ιστορικό χρόνο που προσεγγίζεται, βοηθά στην ευρύτερη κατανόηση της κοινωνίας της περιόδου. Ύστερα τα ονόματα των βουλευτών βοηθούν στην κατανόηση των θέσεων των διάφορων κομμάτων της περιόδου. Για τον πρώτο στόχο χρησιμοποιήθηκαν πρακτικά της Βουλής που υπάρχουν στο διαδίκτυο σε μορφή PDF, και τα οποία μεταφορτώθηκαν μαζικά από την ιστοσελίδα της Βιβλιοθήκης της Βουλής με χρήση κώδικα (scraper). Σε αυτά εφαρμόστηκε OCR για την εξαγωγή του κειμένου. Για τον δεύτερο και τον τρίτο στόχο αξιοποιήθηκαν τεχνικές Επεξεργασίας Φυσικής Γλώσσας.Τεκμήριο Deep learning-based OCR for Greek paleographic manuscripts(12/21/2021) Platanou, Paraskevi; Πλατάνου, Παρασκευή; Athens University of Economics and Business, Department of Informatics; Papaioannou, Georgios; Pavlopoulos, Ioannis; Androutsopoulos, Ion; Papaioannou, Georgios; Pavlopoulos, IoannisToday classicists are provided with a great number of digital tools which, in turn, offer possibilities for further study and new research goals. In this thesis we explore the idea that old Greek handwriting can be machine-readable and consequently, researchers can study the target material fast and efficiently. Previous studies have shown that Optical Character Recognition (OCR) models are capable of attaining good accuracy rates. However, achieving high accuracy OCR results for Greek manuscripts is still considered to be a major challenge. The overall aim of this thesis is to examine the efficiency of OCR software for old manuscript reading and train a deep learning model for this task. To address this statement, we study and use digitized images of the Oxford University Bodleian Library Greek manuscripts. In particular, we follow steps which include image preprocessing, transcription and programming. Our ambition is to go beyond the many challenges we face from one step to the other, taking into consideration that Greek handwritten characters are challenging alone when it comes to machine reading, and develop OCR models using deep learning methods in order to render old Greek handwriting machine readable.Τεκμήριο Explainability in machine learning: an application on retail industry(30-11-2022) Ανδρεάδης, Γεώργιος; Andreadis, Georgios; Athnes University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Vassalos, Vasilios; Pavlopoulos, IoannisΟι εξελίξεις στο χώρο της μηχανικής μάθησης έχουν οδηγήσει στην ανάπτυξη πολύπλοκων μοντέλων με σκοπό την επίλυση πολύπλοκων προβλημάτων. Για αυτόν το λόγο, έγινε επιτακτική η ανάγκη να μπορούν οι αποφάσεις των αυτών των μοντέλων να επεξηγηθούν και να είναι ερμηνεύσιμες. Σε αυτήν τη διπλωματική εργασία, κάνουμε αρχικά μία έρευνα για τις σύγχρονες επεξηγηματικές μεθόδους που μπορούν να εφαρμοστούν σε μοντέλα μηχανικής μάθησης. Έπειτα, περιγράφουμε τα απλά ερμηνεύσιμα μοντέλα και τα πιο πολύπλοκα μοντέλα που είναι πολλές φορές καλύτερα στις προβλέψεις αλλά όχι άμεσα και εύκολα ερμηνεύσιμα. Τα πειράματα τα κάναμε σε ένα σύνολο από δεδομένα λιανικής που περιέχει τιμές και έσοδα πολλών ανταγωνιστών που παράγουν το ίδιο προϊόν. Ο κύριος στόχος είναι να εξάγουμε χρήσιμα συμπεράσματα σχετικά με τις συσχετίσεις μεταξύ των ανταγωνιστών και το κατά πόσο το ένα επηρεάζει το άλλο. Για να το καταφέρουμε αυτό, πρώτα διερευνήσαμε τα δεδομένα και εκπαιδεύσαμε μοντέλα μηχανικής μάθησης τα οποία να μπορούν να προβλέψουν τα έσοδα των εταιρειών, και μετά να αναλύσουμε με επεξηγηματικές μεθόδους, όπως Shapley Values, ποιοι ανταγωνιστές συνεισέφεραν περισσότερο στις συγκεκριμένες προβλέψεις. Στο τέλος, πραγματοποιήσαμε μία εφαρμογή για μία συγκεκριμένη μάρκα από την αρχή μέχρι το τέλος, ως παράδειγμα του πώς μπορεί να βοηθήσουν οι μέθοδοι αυτοί τους άμεσα ενδιαφερόμενους που παίρνουν τις επιχειρηματικές αποφάσεις.Τεκμήριο Fraud detection using NLP features(30-11-2024) Βουλγαράκης, Διονύσιος; Voulgarakis, Dionysios; Athens University of Economics and Business, Department of Informatics; Stafylakis, Themos; Vassalos, Vasilios; Pavlopoulos, IoannisΗ άνοδος του διαδικτύου και της χρήσης των κινητών στις τραπεζικές συναλλαγές έχει διευκολύνει σημαντικά τις οικονομικές συναλλαγές, με εκατομμύρια να πραγματοποιούνται καθημερινά. Ωστόσο, οι απατεώνες εκμεταλλεύονται όλο και περισσότερο αυτά τα κανάλια, δημιουργώντας μια κρίσιμη ανάγκη για αυτοματοποιημένα συστήματα ανίχνευσης απάτης. Σε αυτή τη διατριβή, θέτουμε σημείο αναφοράς απόδοσης στο σύνολο δεδομένων FraudNLP, αξιοποιώντας τα δεδομένα API για την καλύτερη κατανόηση και αναγνώριση των απατών. Επιπλέον, η υψηλή ανισορροπία μεταξύ των απατηλών και μη συναλλαγών υπογραμμίζει την ανάγκη δημιουργίας συνθετικών δεδομένων για την αύξηση των απατηλών δειγμάτων. Για να το αντιμετωπίσουμε, εισάγουμε μια νέα προσέγγιση που χρησιμοποιεί τα GANs για τη δημιουργία συνθετικών δεδομένων, βελτιώνοντας την ικανότητα του συστήματος να εντοπίζει αποτελεσματικά της δραστηριότητες των κακόβουλων χρηστών.Τεκμήριο Geographical attribution of greek inscriptions using machine learning and deep learning methods(30-10-2020) Χατζηπαναγιώτου, Μαρία; Chatzipanagiotou, Maria; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Constantopoulos, Panos; Pavlopoulos, IoannisΟι επιγραφές είναι γραπτά κείμενα χαραγμένα σε συμπαγείς επιφάνειες όπως πέτρες, μέταλλα, αγάλματα, κεραμικά όστρακα, κ.α. Αποτελούν μια ιδιαίτερα σημαντική πηγή μελέτης της ιστορίας, δεδομένου ότι χρησιμοποιούνται για την κατανόηση της κοινωνίας, του πολιτισμού και της ιστορίας του αρχαίου κόσμου. Οι Επιγραφολόγοι, οι ειδικοί στην μελέτη επιγραφών, και οι Ιστορικοί, προσπαθούν να εκμαιεύσουν όσο το δυνατόν περισσότερες και ακριβείς πληροφορίες από την κάθε επιγραφή που αναλύουν, επιχειρώντας να ταυτοποιήσουν τον πραγματικό τόπο όπου ένα κείμενο γράφτηκε, μια διαδικασία γνωστή ως ‘γεωγραφική κατανομή’ των επιγραφών. Ωστόσο, αυτή είναι μια απαιτητική και χρονοβόρα διαδικασία. Στην παρούσα διπλωματική εργασία, αξιοποιώντας τις μεθόδους που προέρχονται από τους τομείς της Γλωσσικής Τεχνολογίας και της Επεξεργασίας της Φυσικής Γλώσσας, προσπαθήσαμε να αυτοματοποιήσουμε αυτήν την διαδικασία της γεωγραφικής απόδοσης, εστιάζοντας συγκεκριμένα σε αρχαίες ελληνικές επιγραφές. Για τις ανάγκες αυτής της έρευνας, η γεωγραφική απόδοση θα αντιμετωπιστεί ως ένα πρόβλημα ταξινόμησης, όπου οι πληροφορίες που έχουν συλλεχθεί από ένα σύνολο εγγράφων χρησιμοποιούνται ως δεδομένα εκπαίδευσης προκειμένου να προαχθεί η δημιουργία ενός αυτοματοποιημένου μηχανισμού κατηγοριοποίησης. Για την κατασκευή των μοντέλων ταξινόμησης χρησιμοποιήσαμε τόσο αλγορίθμους μηχανικής μάθησης όσο και αλγορίθμους βαθιάς μάθησης.Τεκμήριο Handwritten text recognition in ancient and medieval manuscripts with automated transcription and error type classification(30-11-2022) Νικολοπούλου, Παναγιώτα; Nikolopoulou, Panagiota; Athens University of Economics and Business, Department of Informatics; Konstantinidou, Maria; Papaioannou, Georgios; Pavlopoulos, IoannisΗ διατήρηση της πολιτιστικής κληρονομιάς είναι ένα ζήτημα το οποίο απασχολεί ιδιαίτερα τον σύγχρονο κόσμο και πλέον αποτελεί βασικό πεδίο του τομέα των Ψηφιακών Επιστημών. Πιο συγκεκριμένα, όταν πρόκειται για χειρόγραφα ιστορικά έγγραφα, ο τομέας της Ψηφιακής Παλαιογραφίας έχει σημειώσει μεγάλη πρόοδο στην ανάλυση των εγγράφων. Οι τεχνικές που χρησιμοποιεί η Ψηφιακή Παλαιογραφία, αφενός δεν είναι καινούργιες, αφετέρου δεν δημιουργήθηκαν λόγω της άνθηση της επιστήμης της Πληροφορικής. Η συμβολή της Πληροφορικής έγκειται στο γεγονός πως κατέστησε πιο προσιτές τις μεθόδους του τομέα της Παλαιογραφίας στην ερευνητική κοινότητα και παράλληλα την διευκόλυνε. Η χρήση της Πληροφορικής για τις Ανθρωπιστικές Επιστήμες εντοπίζεται σε διαδικασίες όπως η επεξεργασία εικόνας και η εξόρυξη δεδομένων, οι οποίες μπορούν να διαφωτίσουν την έρευνα των χειρόγραφων εγγράφων. Η Αναγνώριση Χειρόγραφου Κειμένου (Handwritten Text Recognition ή αλλιώς HTR) αφορά την αυτοματοποιημένη μεταγραφή ενός κειμένου από μια εικόνα στην ψηφιακή του μορφή και συχνά προκαλεί σφάλματα (π.χ. γραμματικά) λόγω πολλών παραγόντων, όπως τον γραφικό χαρακτήρα ή τη κατάσταση του χειρόγραφου (π.χ. αν είναι βρώμικο ή σκονισμένο). Σε αυτή τη διπλωματική εργασία εισάγουμε ένα νέο HTR dataset, βασισμένο στο dataset που χρησιμοποιήθηκε για τον διαγωνισμό HTREC 2022, διοργανωμένο από το Πανεπιστήμιο Ca’ Foscari της Βενετίας, με κύριο στόχο τη βελτίωση των αυτόματων μεταγραφών από ελληνικά χειρόγραφα και παπύρους. Κύριος σκοπός ήταν η συγκριτική αξιολόγηση των αυτοματοποιημένων μεταγραφών που παρήγαγε το σύστημα HTR από μεσαιωνικά χειρόγραφα. Τα τελευταία περιλαμβάνουν κείμενα, τα οποία παρουσιάζουν μια ποικιλομορφία ως προς τα χρονικά και διαλεκτικά επίπεδα των Ελληνικών. Αυτή θα επιτευχθεί μέσω της ταξινόμησης των τύπων σφαλμάτων. Η κατηγοριοποίηση των σφαλμάτων που προκύπτουν από το σύστημα αυτόματης μεταγραφής, μπορεί να διαφωτίσει την έρευνα ως προς την αποτυχία του συστήματος να μεταγράψει με υψηλή ακρίβεια το κείμενο που βρίσκεται στη ψηφιακή μορφή του χειρόγραφου. Τέλος, είναι αξιοσημείωτο το γεγονός πως πρόκειται για την πρώτη αυτοματοποιημένη ανάλυση σφαλμάτων αυτόματης μεταγραφής.Τεκμήριο Interpretable sentiment-change detection on brand-specific posts(13-12-2022) Μοσχολιός, Φίλιππος-Μιχαήλ; Moscholios, Filippos-Michael; Athens University of Economics and Business, Department of Informatics; Louridas, Panagiotis; Vassalos, Vasilios; Pavlopoulos, IoannisΤο έργο της παρούσας διπλωματικής εργασίας ήταν να δημιουργήσει πλήρη και κατάλληλα θέματα για tweets που αφορούν μάρκες. Μετά τη διερεύνηση των διαθέσιμων δεδομένων που μοιράστηκαν από την Paloservices, οδηγηθήκαμε σε πολύτιμα συμπεράσματα σχετικά με συγκεκριμένες τάσεις σε κανάλια και μάρκες. Η πρωταρχική ανάγκη που προέκυψε από την εταιρεία ήταν η ανάδειξη θεμάτων που προσφέρουν μεγαλύτερη ακρίβεια και διορατικότητα για κάθε μάρκα. Έχοντας ένα σύνολο δεδομένων που περιελάμβανε κυρίως tweets στα ελληνικά, το συναίσθημα του καθενος tweet (θετικό, αρνητικό και ουδέτερο), μια ετικέτα για κάθε tweet καθώς και από ποιο κανάλι προήλθε, σε ποια μάρκα αναφέρεται και την ημερομηνία δημιουργίας του. Έπρεπε να δημιουργήσουμε ένα νέο χαρακτηριστικό που να οδηγεί σε πιο λεπτομερή θέματα. Για πολλές μάρκες, τα διαθέσιμα tweets ήταν έως και τριών ετών, γεγονός που οδηγούσε σε πολύ γενικά και μη ερμηνεύσιμα θέματα. Θεωρήσαμε ότι ο χρόνος είναι σημαντικός παράγοντας για τη βελτιστοποίηση των αποτελεσμάτων, οπότε τον λάβαμε υπόψιν στη μοντελοποίηση. Επισης, εκτιμήσαμε ότι θα ηταν ενδιαφέρον να χρησιμοποιήσουμε το συναίσθημα ως έναν ακόμη παράγοντα του νέου χαρακτηριστικού για να μελετήσουμε πώς κινείται όσον αφορά το χρόνο. Έτσι, έχοντας δημιουργήσει έναν τύπο στον οποίο αξιοποιήσαμε το συναίσθημα και τον χρόνο, ήταν σαφές ότι η καμπύλη του συναισθήματος, καθώς εξελισσόταν, είχε σημεία αλλαγής. Σε αυτό το σημείο, εφαρμόσαμε αλγόριθμους για τον εντοπισμό των σημείων αλλαγής. Ως εκ τούτου, υποθέτουμε ότι θα προκύψουν πιο λεπτομερή θέματα με σημασιολογική εξήγηση μεταξύ των σημείων αλλαγής, εφαρμόζοντας μοντελοποίηση θεμάτων λίγες ημέρες πριν από τη μεταβολή του συναισθήματος, προκειμένου να διερευνήσουμε τους λόγους για τους οποίους το συναίσθημα αλλάζει.Τεκμήριο Misogyny and homophobia: are we all on the same page?(30-12-2023) Τζιγέρογλου, Αθανασία; Tzigeroglou, Athanasia; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Louridas, Panagiotis; Pavlopoulos, Ioannis; Korre, KaterinaΟ όρος "hate speech" ή αλλιώς ρητορική μίσους στα ελληνικά, αναφέρεται σε οποιονδήποτε λόγο, γραπτή ή προφορική έκφραση, ή πρακτική που εκφράζει περιφρόνηση, μίσος ή προωθεί την βία εναντίον ενός ατόμου ή μιας ομάδας ατόμων λόγω ρατσισμού, θρησκευτικών πεποιθήσεων, σεξουαλικού προσανατολισμού, φύλου, εθνικής καταγωγής ή άλλων χαρακτηριστικών. Ο όρος αυτός έχει παρεισφρήσει στην καθημερινότητά μας τα τελευταία χρόνια, κυρίως λόγω της ανάπτυξης των τεχνολογιών και της δημοφιλίας των μέσων κοινωνικής δικτύωσης. Το διαδίκτυο, δίνοντας την δυνατότητα και την ελευθερία στους χρήστες να γράφουν ό,τι θέλουν ανώνυμα, γίνεται πρόσφορο έδαφος για να αναπτυχθεί η διαδικτυακή ρητορική μίσους, που στοχεύει μειονότητες. Η παρούσα εργασία ασχολείται κατά βάση με την διαδικτυακή ρητορική μίσους και πώς αυτή προσλαμβάνεται από άτομα τα οποία στοχοποιούνται από αυτήν. Συγκεκριμένα, θέλουμε να εξετάσουμε αν τα χαρακτηριστικά που συνδέονται με το βιολογικό και κοινωνικό φύλο, αλλά και την σεξουαλική ταυτότητα ενός ατόμου επηρεάζουν την οπτική του σχετικά με την ρητορική μίσους και συγκεκριμένα τις αποφάσεις του, όταν καλείται να μεταφράσει τοξικά σχόλια με σκληρό λεξιλόγιο, το οποίο ίσως και να τον στοχοποιεί. Για αυτό τον λόγο, επικεντρωθήκαμε σε δύο πλευρές της ρητορικής μίσους, τον μισογυνισμό και την ομοφοβία και δημιουργήσαμε ένα σύνολο δεδομένων το οποίο περιλαμβάνει 53 τοξικά σχόλια στα αγγλικά. Στην συνέχεια, διαμορφώσαμε 3 ομάδες επισημειωτών, των straight επισημειωτών, των LGBTQ+ επισημειωτών και των αυτόματων επισημειωτών, προκειμένου να τα μεταφράσουν στα ελληνικά. Οι δύο ομάδες περιλαμβάνουν δύο (2) άτομα η καθεμία και διαμορφώθηκαν με βάση τον σεξουαλικό προσανατολισμό των επισημειωτών, ενώ η τρίτη περιλαμβάνει συστήματα αυτόματης μετάφρασης, όπως είναι το DeepL και το Google Translate, αλλά και ένα μεγάλο γλωσσικό μοντέλο, το Chat GPT 3.5. Αφού συλλέξαμε τις μεταφράσεις από όλες τις ομάδες, χρησιμοποιήσαμε το Character Error Rate και το Word Error Rate για να εξετάσουμε τις διαφορές και τις ομοιότητες που υπάρχουν στις μεταφράσεις, αλλά και την συμφωνία ή διαφωνία που υπάρχει μέσα στην ομάδα, αλλά και στις ομάδες μεταξύ τους. Τα αποτελέσματα έδειξαν ότι οι straight επισημειωτές συμφωνούν περισσότερο μεταξύ τους σε σχέση με τους επισημειωτές άλλων ομάδων, ενώ οι αυτόματοι επισημειωτές είχαν μεγαλύτερη διαφωνία μεταξύ τους. Ακόμα, όσον αφορά στα ζευγάρια διαφορετικών ομάδων, οι straight και οι LGBTQ+ επισημειωτές συμφωνούν περισσότερο, σε σχέση με τα άλλα ζευγάρια, ενώ η ομάδα των αυτόματων και των LGBTQ+ επισημειωτών διαφωνεί περισσότερο. Τέλος, ασχοληθήκαμε με την επισημείωση των διαφορών των μεταφρασμένων σχολίων με βάση την σεξουαλική ταυτότητα του κάθε επισημειωτή και την ποιοτική ανάλυσή τους.Τεκμήριο Mitigating polarisation in online discussions through adaptive moderation techniques(26-11-2024) Τσίρμπας, Δημήτριος; Tsirmpas, Dimitrios; Athens University of Economics and Business, Department of Informatics; Vassalos, Vasilios; Stafylakis, Themos; Pavlopoulos, IoannisΟ συντονισµός/διαµεσολάβση (moderation/facilitation) των διαδιϰτυαϰών συζητήσεων είναι ζωτιϰής σηµασίας για την άνϑηση των συζητήσεων ϰαι την αποτροπή της πόλωσης ϰαι της τοξιϰότητας, που στις µέρες µας φαίνεται πανταχού παρούσες. Οι σύγχρονες τεχνιϰές συντονισµού/διαµεσολάβησης απαιτούν ανϑρώπινη συµµετοχή ϰαι, ως εϰ τούτου, είναι δαπανηρές ϰαι µη επεϰτάσιµες, οδηγώντας πολλούς να στραφούν στη χρήση Μεγάλων Γλωσσιϰών Μοντέλων (ΜΓΜ, ή LLMs στα Αγγλιϰά) για αυτές. Στα πλαίσια της διατριβής αυτής δηµιουργούµε ένα νέο σύστηµα το οποίο παράγει συνϑετιϰές διαδιϰτυαϰές συζητήσεις, χρησιµοποιώντας ψευτο-χρήστες ΜΓΜ µε ϰοινωνιϰο-δηµογραφιϰά υπόβαϑρα έτσι ώστε να ϰαταστήσουµε τις συζητήσεις ρεαλιστιϰές. Επιπλέον, δείχνουµε ότι η χρήση ϰοινωνιϰο-δηµογραφιϰών υποβάϑρων οδηγεί σε πιο ρεαλιστιϰές συζητήσεις. ∆ιερευνούµε τη χρήση των σχολιαστών LLM για την εϰτίµηση της ποιότητας των συζητήσεων, χρησιµοποιώντας ένα νέο στατιστιϰό έλεγχο για τη µέτρηση της πόλωσης των σχολιαστών ϰαι δείχνουµε ότι η χρήση ϰοινωνιϰο-δηµογραφιϰού υπόβαϑρου στους σχολιαστές LLM µπορεί να µην επηρεάζει σηµαντιϰά τις ϰρίσεις τους. Επεϰτείνουµε το σύστηµα µας µε τη δυνατότητα υποστήριξης αυτόµατων επισηµειωτών (µε χρήση ΜΓΜ), για την αντιµετώπιση του προβλήµατος της αξιολόγησης διαλόγων. Οι ψευτο-επισηµειωτές αυτοί έχουν προϰαϑορισµένα από εµάς ϰοινωνιϰο-δηµογραφιϰά υπόβαϑρα, έτσι ώστε να προσοµοιώσουµε τη διαφωνία που πιϑανώς να υπάρχει ανάµεσα σε ανϑρώπους µε αντίστοιχα υπόβαϑρα. Τέλος, δίνουµε στη δηµοσιότητα το διϰό µας πρόγραµµα δηµιουργίας ϰαι σχολιασµού συνϑετιϰών συζητήσεων, τα συνϑετιϰά σύνολα δεδοµένων που προέϰυψαν από τα πειράµατά µας, ϰαϑώς ϰαι την επαϰόλουϑη ανάλυση ϰαι τα συµπεράσµατα από αυτά. Ο ϰώδιϰας, τα σύνολα δεδοµένων ϰαι η ανάλυση βρίσϰονται στο αποϑετήριο ϰώδιϰα στη διεύϑυνση https://github.com/dimits-ts/ llm_moderation_research.Τεκμήριο Text classification to automatically detect hazards in foods from official announcements and social media(12/03/2021) Papadatos, Emmanouil; Παπαδάτος, Εμμανουήλ; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Vassalos, Vasilios; Pavlopoulos, IoannisA food recall can be described as the actions taken by a food producer or organization to remove a product off the market because there is reason to believe that it may cause consumers to become ill. This thesis will focus on developing and training text classifiers with data from food recalls which will subsequently be used to produce labels for unlabeled food recalls. The goal is to apply the trained classifier on a set of more than 1000 announcements about product recalls. Each food recall contains the official announcement in textual form and the specific hazard and product types. In the first part we classify each food recall on the specific product and hazard types. For this task, we employed two machine learning models, a Random Forest (RF) and a Support Vector Classifier (SVC), and a scaled cross lingual sentence encoder, the XLM-Roberta (XLMR). For the second part of this thesis, we used the best performing model from the classification part to produce labels for unlabeled food recall incidents, in order to provide statistics about the most frequently recalled products and most frequent hazards.Τεκμήριο Toxicity classification for the detection of ageism on social media(30-12-2022) Πετεινού, Ελένη; Peteinou, Eleni; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Louridas, Panagiotis; Pavlopoulos, IoannisΗ παρούσα διπλωματική έρευνα αφορά τον κλάδο της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing). Πιο συγκεκριμένα, διερευνά το θέμα της Ταξινόμησης Τοξικού Λόγου (Toxicity Classification), μια διεργασία κατά την οποία ένας αλγόριθμος Μηχανικής Μάθησης, αφού εκπαιδευτεί πάνω σε σχετικά δεδομένα, καλείται να ανιχνεύσει εάν ένα κείμενο περιέχει τοξικό λόγο. Ως τοξικός λόγος νοείται οποιουδήποτε είδους λεκτική επικοινωνία χρησιμοποιεί προσβλητικό ή χυδαίο λεξιλόγιο και έχει στόχο να θίξει ή να στιγματίσει ένα άτομο ή μια κοινωνική ομάδα. Η μεγαλύτερη πρόκληση που καλούνται να αντιμετωπίσουν τα Συστήματα Ανίχνευσης Τοξικού Λόγου (Toxic Speech Detection Systems) είναι το να εντοπίσουν όχι μόνο τις πιο προφανείς μορφές τοξικότητας, που διατυπώνονται μέσω υβριστικού λεξιλογίου, αλλά και τις πιο υποδόριες εκδοχές της, οι οποίες πραγματώνονται μέσα από τη χρήση ειρωνείας και σαρκασμού ή απαιτούν γνώση περικειμενικών στοιχείων (context) μιας συνομιλίας ώστε να γίνουν κατανοητές. Ένα από τα περιβάλλοντα όπου συχνά παρατηρείται χρήση τοξικού λόγου είναι τα μέσα κοινωνικής δικτύωσης. Πλατφόρμες οι οποίες θα έπρεπε να αποτελούν σημεία ανταλλαγής γόνιμων συζητήσεων και αποδοχής της διαφορετικότητας γίνονται συχνά πεδίο ανταλλαγής κακόβουλων μηνυμάτων και λεκτικής κακοποίησης από χρήστες που επιλέγουν να εκφραστούν επιθετικά εναντίον άλλων χρηστών. Πολλές είναι οι έρευνες που έχουν επιχειρήσει να κατασκευάσουν ακριβή Συστήματα Ανίχνευσης Τοξικού Λόγου για τα μέσα κοινωνικής δικτύωσης. Στην πλειοψηφία τους, τα συστήματα αυτά είναι προσαρμοσμένα για την αγγλική γλώσσα μιας και η χρήση της είναι ιδιαίτερα δημοφιλής στο διαδίκτυο, ακόμη και από μη φυσικούς ομιλητές. Ενώ υπάρχουν και αρκετές έρευνες που εξειδικεύονται στην ανίχνευση φαινομένων τοξικού λόγου που αφορούν ένα συγκεκριμένο είδος τοξικότητας (π.χ. σεξισμός, εθνικιστικά σχόλια). Η διαφοροποίηση της παρούσας μελέτης έγκειται στο γεγονός ότι επικεντρώνεται στην ανίχνευση ενός όχι τόσο προβεβλημένου είδους τοξικού λόγου, του ηλικιακού ρατσισμού. Αν και όχι τόσο ευρέως μελετημένος όσο άλλα είδη διάκρισης, ο ηλικιακός ρατσισμός, σύμφωνα και με τον Διεθνή Οργανισμό Υγείας (World Health Organization) μετρά πολυάριθμες συνέπειες για όσους γίνονται στόχοι του. Συνεπώς, η συμβολή αυτής της έρευνας μπορεί να συνοψιστεί στα εξής σημεία: τη μελέτη ενός ιδιαίτερα επικίνδυνου είδους τοξικού λόγου, που δεν έχει μέχρι στιγμής λάβει την προσοχή που του αρμόζει, τη διερεύνηση ενός συνόλου δεδομένων (προερχόμενου από τους Fraser et al., 2022) που αφορούν τον ηλικιακό ρατσισμό και την επισημείωση ενός μικρού δείγματος από αυτά. Τέλος την παραγωγή αποτελεσμάτων που υποδηλώνουν ότι ένα Σύστημα Ανίχνευσης Τοξικού Λόγου, με ικανοποιητική απόδοση σε πιο γενικευμένες περιπτώσεις τοξικότητας, αδυνατεί να αναγνωρίσει τοξικά μηνύματα που περιέχουν ηλικιακό ρατσισμό, με αποτέλεσμα να κρίνεται χρήσιμη η δημιουργία συστημάτων, εξειδικευμένων στην ανίχνευση του συγκεκριμένου είδους.Τεκμήριο Toxicity detection in Greek parliamentary proceedings(2021) Τασσόπουλος, Μάριος; Athens University of Economics and Business, Department of Informatics; Konstantinidou, Maria; Androutsopoulos, Ion; Pavlopoulos, IoannisThis thesis aims to examine toxicity used in parliamentary discourse. The goals of this task are 3: i) to create an exhaustive list of all toxicity/offensive language/ abusive language definitions for better recollection and future work on the subject ii) to examine if toxicity exists in Greek parliamentary discourse and what type we can find and iii) to examine whether the financial crisis of 2008 can affect the levels of toxicity. For the first goal, a literature review of papers was made and all definitions to our knowledge were collected. For the second and the third goal, several NLP methods were implored. Greek parliamentary proceedings were used as the dataset for our research as well as an annotated dataset which consisted of Greek tweets. The annotated dataset was used to fine-tune a Multinomial NB classifier to find toxicity in our discourse and then examine words that may be used in toxic context. From this process the words horrible, sycophant, criminal, and incompetent were selected. The word illegal immigrant was also examined for its possible toxic usage. Finally, words descriptive for ideology were compared for their similarity with fascism, considering that fascism is a taboo ideology and thus this could be another indicator for toxicity.Τεκμήριο Toxicity detection on Greek tweetsAnagnostopoulos, Theodoros; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Malakasiotis, Prodromos; Vassalos, VasiliosIn this thesis, we experimented with detecting verbally offensive (toxic) greek tweets withgreek & multilingual transformer models. We firstly compared said BERT models on apublicly available greek dataset on toxic tweet detection. Having been trained on that publicdataset, we tested their ability to generalize their knowledge on our newly annotated datasetconstructed, in collaboration with PALOservices. Furthermore, we applied Semi-Supervisedlearning techniques on 10,000 unlabeled data to augment the existing training data, andfurther increase performance on our dataset. We also further pretrained a BERT model on300,000 unlabeled tweets to examine its capacity to learn new tokens and detect toxicity in amore reliable way. Lastly, we experimented with sentiment and emotion in tweets, not only toinvestigate possible correlations with toxicity but also, once again, to maximize our model’spredictive ability on offensive language detection.Τεκμήριο Tuples-DMM: a retrieval-enhanced concept-driven guided decoding algorithm(2024-10-25) Plavos, Dimosthenis; Πλαβός, Δημοσθένης; Pavlopoulos, IoannisΗ αυτόµατη περιγραφή ιατριϰών ειϰόνων αποτελεί µια εξελισσόµενη διαδιϰασία στον τοµέα της Τεχνητής Νοηµοσύνης που περιλαµβάνει την αυτόµατη παραγωγή περιγραφιϰών λεζαντών για τέτοιες ειϰόνες. Ενισχύεται από τις προόδους στις τεχνολογίες απειϰόνισης ϰαι τον αυξανόµενο αριϑµό ασϑενών, τα οποία έχουν οδηγήσει στη δηµιουργία ενός µεγάλου αριϑµού αϰτινολογιϰών ειϰόνων στις µονάδες υγειονοµιϰής περίϑαλψης παγϰοσµίως. Η ανάλυση αυτών των ειϰόνων απαιτεί σηµαντιϰή ποσότητα χρόνου από τους ϰλινιϰούς ιατρούς, γεγονός που ϰαϑιστά την αυτοµατοποίηση αυτής της διαδιϰασίας ένα µέσο εξοιϰονόµησης χρόνου. Οι αυτόµατα δηµιουργούµενες λεζάντες µπορούν επίσης να χρησιµεύσουν ως εργαλεία για την ϰαϑοδήγηση της διαγνωστιϰής διαδιϰασίας ή την επιβεβαίωση των ευρηµάτων των ϰλινιϰών ιατρών. Η πτυχιαϰή αυτή εργασία επιϰεντρώνεται στην Παραγωγή ∆ιαγνωστιϰής Περιγραφής (Diagnostic Captioning), η οποία αναφέρεται στη δηµιουργία ϰειµενιϰών περιγραφών µε στόχο την αναγνώριση ϰαι µετάδοση διαγνωστιϰών πληροφοριών από ιατριϰές ειϰόνες. Για την υλοποίησή της, χρησιµοποιεί το σύνολο δεδοµένων ImageCLEFmedical 2023. Η προτεινόµενη µέϑοδος TuplesDMM βασίζεται στη µέϑοδο DMM (Distance from Median Maximum), που αποτελεί µια µεϑοδολογία Καϑοδηγούµενης Αποϰωδιϰοποίησης βασισµένη σε"ϰεντριϰές έννοιες" ϰαι παρουσιάστηϰε από τον Kaliosis ϰαι άλλους [Kal+24]. Η µέϑοδος DMM δηµιουργεί περιγραφές ενσωµατώνοντας ρητά ή άρρητα τις έννοιες που σχετίζονται µε µια ιατριϰή ειϰόνα, σύµφωνα µε τον τρόπο που αυτές οι έννοιες εϰπροσωπούνται στα παραδέιγµατα εϰπαίδευσης. Η µέϑοδος Tuples-DMM ϰαι οι τροποποιήσεις της στοχεύουν στην ανάϰτηση των πιο σχετιϰών δεδοµένων εϰπαίδευσης ϰαι την τροποποίηση του αλγορίϑµου DMM. Ο στόχος είναι η βελτίωση της ϰαϑοδηγούµενης δηµιουργίας µέσω της αποφυγής της επιρροής από δεδοµένα εϰπαίδευσης που αντιπροσωπεύουν άσχετα νοηµατιϰά ϑέµατα ϰαι της εστίασης σε σχετιϰά νοηµατιϰά δεδοµένα εϰπαίδευσης, προϰειµένου να επιτευχϑούν πιο αϰριβείς ϰαι νοηµατιϰά ουσιαστιϰές περιγραφές.