Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας
Μόνιμο URI για αυτήν την κοινότηταhttps://pyxida.aueb.gr/handle/123456789/2
Η Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας περιλαμβάνει τα Τμήματα: - Τμήμα Πληροφορικής - Τμήμα Στατιστικής
Περιήγηση
Πλοήγηση Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας ανά Επιβλέπων "Androutsopoulos, Ion"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 20 από 22
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Aspect Based Sentiment AnalysisPavlopoulos, Ioannis; Athens School of Economics and Business, Department of Informatics; Androutsopoulos, IonAspect Based Sentiment Analysis (ABSA) systems receive as input a set of texts (e.g.,product reviews or messages from social media) discussing a particular entity (e.g., anew model of a mobile phone). The systems attempt to detect the main (e.g., the mostfrequently discussed) aspects (features) of the entity (e.g., ‘battery’, ‘screen’) and toestimate the average sentiment of the texts per aspect (e.g., how positive or negativethe opinions are on average for each aspect). Although several ABSA systems have been proposed, mostly research prototypes, there is no established task decompositionfor ABSA, nore are there any established evaluation measures for the subtasks ABSA systems are required to perform. This thesis, proposes a new task decomposition for ABSA, which contains three main subtasks: aspect term extraction, aspect term aggregation, and aspect term polarity estimation. The first subtask detects single- and multi-word terms naming aspects of the entity being discussed (e.g., ‘battery’, ‘hard disc’), called aspect terms. The second subtask aggregates (clusters) similar aspect terms (e.g., ‘price’ and ‘cost’, but maybe also ‘design’ and ‘color’), depending on user preferences and other restrictions (e.g., the size of the screen where the results of the ABSA system will be shown). The third subtask estimates the average sentiment per aspect term or cluster of aspect terms. For each one of the above mentioned subtasks, benchmark datasets for different kinds of entities (e.g., laptops, restaurants) were constructed during the work of this thesis. New evaluation measures are introduced for each subtask, arguing that they are more appropriate than previous evaluation measures. For each subtask, the thesis also proposes new methods (or improvements over previous methods), showing experimentally on the constructed benchmark datasets that the new methods (or the improved versions) are better or at least comparable to state of the art ones.Τεκμήριο Automatic detection of sections and paragraphs in legal documents(14-12-2022) Βλάχος, Χρήστος; Vlachos, Christos; Athens University of Economics and Business, Department of Informatics; Kotidis, Yannis; Vassalos, Vasilios; Androutsopoulos, IonΗ ανάλυση εγγράφων είναι μία διαδικασία που εστιάζει στην επεξεργασία εγγράφων, με σκοπό να εξάγει λεπτομέρειες που σχετίζονται με πληροφορίες όπως συναλλαγές, εμπλεκόμενα μέλη, στόχους κ.λπ. Πρόκειται για ένα θέμα, όλο και ποιο επίκαιρο στη σύγχρονη κοινωνία, λόγω της αυξανόμενης ανάγκης για μία γρήγορη, εύκολη και σαφή επεξήγηση των περιεχομένων τους, όπως στη περίπτωση των νομικών εγγράφων. Όμως, η χρήση τεχνικών Βαθιάς Μάθησης, οι οποίες θα μπορούσαν να απλοποιήσουν διαδικασίες όπως η ανάλυση διάταξης, η ταξινόμηση τομέων, κ.λπ., αποτελεί ένα σχετικά πρόσφατο θέμα. Μέχρι πρότινος, η ανάλυση εγγράφων γινόταν κατά κύριο λόγο χειρωνακτικά ή μέσω χρήσης προκαθορισμένων κανόνων. Στην παρούσα εργασία χρησιμοποιούνται τεχνικές Βαθιάς Μάθησης για την ολοκλήρωση δύο έργων σχετικών με την ανάλυση εγγράφων. Το πρώτο αφορά τον εντοπισμό παραγράφων και τίτλων σε εικόνες νομικών εγγράφων με τη χρήση τεχνικών Υπολογιστικής Όρασης και Επεξεργασίας Φυσικής Γλώσσας. Για τους σκοπούς του, έμφαση θα δοθεί σε δύο μοντέλα Υπολογιστικής Όρασης, συγκεκριμένα στα YOLOv5 και RetinaNet, τα οποία θα εκπαιδευτούν στον εντοπισμό συγκεκριμένων περιοχών κειμένου. Μετά τη διαδικασία εντοπισμού θα ακολουθήσει ένα βήμα µετα-επεξεργασίας κατά το οποίο οι περιοχές κειμένου θα ταξινομηθούν επιπλέον σε μία από τις κατηγορίες "παράγραφος" ή "τίτλος", μέσω εφαρμογής μίας απλής προσέγγισης Επεξεργασίας Φυσικής Γλώσσας με τη χρήση κανόνων. Το δεύτερο έργο σχετίζεται µε την ταξινόμηση ζωνών κειμένων. Για την επίτευξη του, δύο μοντέλα Επεξεργασίας Φυσικής Γλώσσας θα εκπαιδευτούν. Αυτά τα μοντέλα περιλαμβάνουν το RoBERTa καθώς και ένα ιεραρχικό. Το ιεραρχικό μοντέλο θα βασιστεί στις προβλέψεις του RoBERTa και θα προσπαθήσει να βελτιώσει περεταίρω τα αποτελέσματα του, συνδυάζοντάς τες με ένα επιπλέον μοντέλο. Στη διπλωματική αυτή, λεπτομέρειες θα δοθούν σχετικά με τα δεδομένα που χρησιμοποιήθηκαν, τη μεθοδολογία που ακολουθήθηκε και τα αποτελέσματα του εκάστοτε μοντέλου, σε συνδυασμό με τις δυνατότητές τους. Τέλος, επιπλέον πιθανές βελτιώσεις ή εναλλακτικές θα προταθούν.Τεκμήριο Biomedical question answering(2020) Stavropoulos. Petros; Σταυρόπουλος, Πέτρος; Athens University of Economics and Business, Department of Informatics; Koutsopoulos, Iordanis; Papageorgiou, Haris; Androutsopoulos, IonQuestion Answering and Machine Reading Comprehension (MRC) are crucial and complextasks in the Field of Natural Language Processing (NLP). In this thesis, we first introduceBioMRC, a novel biomedical dataset for cloze-type Question Answering, based on previouswork of the BioRead dataset, implementing the same baselines and models for comparison.We then develop two new models based on the SciBert model from AllenAI for solvingthe task of BioMRC. We use these pre-trained models as a transfer learning approachfor the BioASQ Task 8B Phase B, in a modified architecture, to investigate whether ourdataset can be used for improving exact answer Question Answering tasks. In addition,we experiment with other BERT-based models for solving the BioASQ task, which usethe SpanBert and BioBert models, as well as the Text-to-Text Transfer Transformer (T5)model, a generative Transformer-based model, which achieved the best results for the task.Moreover, we create a cloze-type version of the BioASQ Task 8B Phase B factoid instancessubset, which is used to boost the T5’s results when pre-trained on the BioMRC dataset,but can also be used in future work for automatic transformation of question-answerinstances to cloze-type question instances. Lastly, we perform error analysis of our bestmodel for the BioASQ task for exact answers, where we point out the shortcomings of thetask evaluation measures and some mistakes, that could be fixed by the BioASQ organizers,as an improvement of the task.Τεκμήριο Chain of thought prompting for intent classification using large language models(13-02-2024) Κούτσιανος, Δημήτριος; Koutsianos, Dimitrios; Athens University of Economics and Business, Department of Informatics; Vassalos, Vasilios; Malakasiotis, Prodromos; Androutsopoulos, IonΜεγάλα γλωσσικά μοντέλα (LLM) όπως τα ChatGPT, GPT-4 και Llama έχουν δείξει τεράστια ικανότητα στην κατανόηση και παραγωγή κειμένου. Μεταξύ των πιο σημαντικών αναδυόμενων ικανοτήτων των LLMs είναι η λεγόμενη Chain of Thought (CoT) prompting. Η τελευταία αποτελείται από μια σειρά ενδιάμεσων βημάτων συλλογισμού που μπορούν να βελτιώσουν σημαντικά την ικανότητα των LLMs να εκτελούν σύνθετους συλλογισμούς. Επιπλέον, παρέχει ένα ερμηνεύσιμο παράθυρο στη συμπεριφορά του μοντέλου, υποδεικνύοντας τον τρόπο με τον οποίο μπορεί να έχει καταλήξει σε μια συγκεκριμένη απάντηση και παρέχοντας ευκαιρίες εντοπισμού των σημείων όπου η πορεία συλλογισμού πήγε στραβά. Οστόχος της προτεινόμενης εργασίας είναι να εξετάσει την εφαρμογή της μεθόδου CoT prompting στην ταξινόμηση προτάσεων, και πιο συγκεκριμένα στην ταξινόμηση προθέσεων (intents). Η εκτίμηση της πρόθεσης του χρήστη μιας υπηρεσίας είναι ένα από τα βασικά προβλήματα στα συστήματα διαλόγου προσανατολισμένα σε συγκεκριμένη εργασία. Παραδοσιακά, έχει προσεγγιστεί ως πρόβλημα ταξινόμησης που απαιτεί πολλά παραδείγματα εκπαίδευσης ανά πρόθεση και παλαιότερους ταξινομητές που εκπαιδεύονται σε ένα προκαθορισμένο σύνολο προθέσεων. Τέτοιες προσεγγίσεις δεν είναι γενικά κλιμακούμενες και δύσκολα συντηρούνται, καθώς απαιτούν ένα μοντέλο ανά πελάτη λόγω του ότι το σύνολο των προθέσεων εξαρτάται από τον πελάτη. Μια πρόσθετη αδυναμία αυτών των προσεγγίσεων είναι ότι δεν αποκαλύπτουν τον τρόπο με τον οποίο το μοντέλο ταξινομεί τις φράσεις σε κλάσεις προθέσεων. Μπορούν να εφαρμοστούν μέθοδοι επεξήγησης όπως η LIME ή η SHAP, ωστόσο δεν αποδίδουν πάντα διαισθητικές εξηγήσεις, καθώς απλώς εκτιμούν τη συμβολή κάθε λέξης της φράσης στην απόφαση του ταξινομητή, κάτι για το οποίο η μέθοδος Chain of Thought prompting μπορεί να δώσει λύση. Τα LLM έχουν επιδείξει ισχυρές επιδόσεις στην ταξινόμηση κειμένου, τόσο σε πλαίσιο 0- shot (δηλαδή χωρίς κανένα παράδειγμα εκπαίδευσης στο prompt) όσο και σε πλαίσιο fewshot (δηλαδή με ένα συγκεκριμένο αριθμό παραδειγμάτων εκπαίδευσης στο prompt), αλλά όχι στο ίδιο επίπεδο με παλαιότερα μοντέλα που έχουν σχεδιαστεί ειδικά για ταξινόμηση. Για να αντιμετωπιστεί αυτό το κενό στην επίδοση, προστίθεται στο prompt ένα σύνολο 5 υποψήφιων προθέσεων. Αυτές οι προθέσεις εξάγονται χρησιμοποιώντας έναν ταξινομητή με βάση το BERT. Για να μειωθεί περαιτέρω το χάσμα στην επίδοση, για κάθε μία από τις 5 υποψήφιες προθέσεις περιλαμβάνεται επίσης στο prompt μια περιγραφή για την πρόθεση αυτή, η οποία δημιουργήθηκε με τη βοήθεια του ChatGPT. ΄Οσον αφορά το μέρος της αλυσίδας σκέψης αυτής της διατριβής, δοκιμάστηκε αρχικά μία 0- shot μέθοδος αξιοποιώντας τρεις φράσεις που παράγουν Chain of Thought, «Let’s Think Step by Step», «Let’s Take a Deep Breath and work on this Step by Step» και μια νέα φράση, «Show your Thoughts». Θα δείξουμε ότι και στα δύο σύνολα δεδομένων που χρησιμοποιούνται, δηλαδή το CLINC-150 και το BANKING77, η μέθοδος που περιγράφηκε παρουσιάζει ελπιδοφόρα αποτελέσματα.Τεκμήριο Data augmentation techniques for legal text analytics(2017) Papadaki, Maria; Athens University of Economics and Business, Department of Informatics; Vassalos, Vasilios; Titsias, Mixail; Androutsopoulos, IonThis master thesis involves the implementation and evaluation of the domain-agnostic data augmentation techniques that operate in the input feature space. More concretely, in the context of contract element extraction (Chalkidis et al., 2017a, 2017b), this thesis explores the effectiveness of three domain-agnostic data augmentation methods, namely: adding Gaussian noise, applying interpolation or extrapolation at the word representation level (word embeddings).Τεκμήριο Deep learning models for corporate event prediction: using text and financial indicators(21-12-2023) Μαμάκας, Δημήτριος; Mamakas, Dimitrios; Athens University of Economics and Business, Department of Informatics; Leledakis, Georgios; Galanis, Dimitrios; Androutsopoulos, IonΤις τελευταίες δεκαετίες, οι Αρχικές Δημόσιες Εγγραφές (Initial Public Offerings) εξελίχθηκαν σε ένα αναντικατάστατο εργαλείο για την άντληση μετοχικών κεφαλαίων. Γενικά, τα IPO περιγράφουν τη διαδικασία προσφοράς ιδιωτικών εταιρικών μετοχών στην πρωτογενή αγορά, προσελκύοντας επενδυτές για την αγορά τους. Στη συνέχεια, οι τίτλοι καθίστανται διαθέσιμοι στη δευτερογενή αγορά, όπου γίνονται εύκολα αντικείμενο διαπραγμάτευσης από ιδιώτες. Συνήθως, όταν οι αμερικανικές επιχειρήσεις εισέρχονται στο χρηματιστήριο, ακολουθούν μια ρητή προκαθορισμένη διαδικασία. Συγκεκριμένα, η Επιτροπή Κεφαλαιαγοράς (SEC) απαιτεί την υποβολή του εγγράφου κατάθεσης S-1 στο σύστημα EDGAR (Electronic Data Gathering, Analysis, and Retrieval), διασφαλίζοντας πως οι επενδυτές έχουν εκ των προτέρων γνώση της αποτίμησης, των πιθανών κινδύνων ή των μελλοντικών επιχειρηματικών σχεδίων της εκδότριας εταιρείας. Ως εκ τούτου, η υποτιμολόγηση (underpricing) των IPO τυγχάνει σημαντικής προσοχής, προκαλώντας το ενδιαφέρον οικονομολόγων και χρηματοοικονομικών εμπειρογνωμόνων. Υποτιμολόγηση έχουμε όταν η προσφερόμενη τιμή είναι μικρότερη από την τιμή κλεισίματος της μετοχής κατά την πρώτη ημέρα διαπραγμάτευσης. Το αντίθετο σενάριο υποδηλώνει υπερτιμολόγηση (overpricing). Για τη διερεύνηση αυτών των φαινομένων, προηγούμενη βιβλιογραφία εφάρμοζε βασικές τεχνικές Μηχανικής Μάθησης οι οποίες χρησιμοποιούσαν χαρακτηριστικά που ανακτώνται από τα ίδια τα S-1, ή συγκεκριμένες χρηματοοικονομικές μεταβλητές για την ταξινόμηση των IPO. Ωστόσο, η μέτρηση της ικανότητας των S-1 στης πρόβλεψη φαινομένων υποτιμολόγησης καθίσταται μία περίπλοκη διαδικασία, καθώς τίθενται περιορισμοί στην επεξεργασία των κειμένων λόγω του μεγάλου μεγέθους τους, γεγονός που καθιστά δύσκολη την επεξεργασία και την ανάλυσή τους. Ως εκ τούτου, στην παρούσα μελέτη, υπερβαίνουμε τις προηγούμενες προσεγγίσεις Μηχανικής Μάθησης, και διερευνούμε την προγνωστική δύναμη των IPO εφαρμόζοντας προ-εκπαιδευμένους Transformers. Για να ανιχνεύσουμε την υποτιμολόγηση, χρησιμοποιούμε πληροφορίες κειμένου που ανακτώνται από τα ίδια τα S-1 μαζί με ειδικές γνώσεις που προέρχονται από ορισμένους χρηματοοικονομικούς δείκτες, παρουσιάζοντας μια συλλογή μοντέλων που επεξεργάζονται κείμενα μήκους έως και 20.480 λέξεων. Τέλος, αποδεικνύουμε την ανωτερότητα των μεθόδων μας έναντι των προηγούμενων προσεγγίσεων στα περισσότερα πειράματα.Τεκμήριο Deep neural networks for biomedical question answering(01-05-2023) Παππάς, Δημήτριος; Pappas, Dimitrios; Athens University of Economics and Business, Department of Informatics; Papageorgiou, Haris; Koutsopoulos, Iordanis; Vassalos, Vasilios; Kotidis, Υannis; Konstas, Ioannis; Paliouras, Georgios; Androutsopoulos, IonΣε αυτήν τη διατριβή, επεκτείνουμε την έρευνα στον τομέα των ερωταποκρίσεων σε βιοϊατρικά κείμενα. Το πρώτο μέρος της διατριβής επικεντρώνεται στην ανάκτηση περιλήψεων επιστημονικής βιβλιογραφίας με βάση μια ερώτηση που υποβάλλεται από έναν βιοϊατρικό ειδικό εκφρασμένη σε φυσική γλώσσα. Προτείνουμε νέα μοντέλα βαθιάς μάθησης για την ανάκτηση βιοϊατρικών κειμένων και εξαγωγή αποσπασμάτων σχετικών με την ερώτηση. Προτείνονται επίσης μοντέλα που ανακτούν τα κείμενα και τα αποσπάσματα ταυτόχρονα, τα οποία βελτιώνουν ακόμη περισσότερο τα αποτελέσματα. Το καλύτερο μοντέλο βαθιάς μάθησης που δημιουργήθηκε έγινε δημόσια διαθέσιμο ως πρωτότυπο έρευνας κατά τη διάρκεια της πανδημίας του κορονοϊού για να βοηθήσει τους ερευνητές σε όλο τον κόσμο. Σε συνεργασία με βιοϊατρικούς ειδικούς, χρησιμοποιήσαμε ένα από τα μοντέλα βαθιάς μάθησης μας για την ανάκτηση εγγράφων και αναπτύξαμε ένα σύστημα αναγνώρισης λογοτεχνίας για συστηματικές ανασκοπήσεις.Ένα μείζον θέμα στις ερωταποκρίσεις σε βιοϊατρικά κείμενα είναι η έλλειψη επισημειωμένων δεδομένων από ανθρώπους, καθώς η επισημείωση απαιτεί ανθρώπινη ειδίκευση και χρόνο. Για αυτό το λόγο στο δεύτερο τμήμα της διατριβής, κατασκευάσαμε δύο νέα τεχνητά σύνολα δεδομένων για ερωταποκρίσεις σε βιοϊατρικά δεδομένα με τη μορφή πολλαπλής επιλογής (cloze-style QA) τα οποία και διατίθενται ελεύθερα. Ακολουθήσαμε μια μεθοδολογία που χρησιμοποιήθηκε στο παρελθόν σε ειδησεογραφικά άρθρα και βιβλία και κατασκευάζουμε εκατομμύρια τεχνητά παραδείγματα εκπαίδευσης που μπορούν να χρησιμοποιηθούν για την εκπαίδευση μοντέλων βαθιάς μάθησης που απαιτούν μεγάλο όγκο δεδομένων. Αξιολογώντας τις απαντήσεις των ανθρώπων στις κατασκευασμένες ερωτήσεις, δείχνουμε ότι οι άνθρωποι που είναι ειδικοί στον τομέα ξεπερνούν τους μη ειδικούς, το οποίο υποστηρίζει τον ισχυρισμό ότι η ανθρώπινη τεχνογνωσία είναι απαραίτητη για την απάντηση ερωτήσεων στον βιοϊατρικό τομέα. Αναπτύξαμε και εκπαιδεύσαμε νέα μοντέλα βαθιάς μάθησης για κατανόηση γραπτού λόγου χρησιμοποιώντας τα νέα μας σύνολα δεδομένων. Τα μοντέλα μας ξεπερνούν προηγούμενα προτεινόμενα μοντέλα βαθιάς μάθησης για ερωταποκρίσεις πολλαπλών επιλογών, καθώς και τέσσερα ισχυρά μοντέλα που δεν χρησιμοποιούν βαθιά μάθηση. Σε πειράματα που διεξήχθησαν σε ένα δείγμα του συνόλου δεδομένων, το καλύτερο μοντέλο ξεπέρασε όλους τους ανθρώπους που δεν ήταν ειδικοί και πέτυχε ανταγωνιστικά αποτελέσματα σε σύγκριση με τους ειδικούς βιοϊατρικής.Στο τρίτο μέρος της διατριβής, εκπαιδεύσαμε μοντέλα βαθιάς μάθησης για εξαγωγή απαντήσεων σε βιοϊατρικές ερωτήσεις ως τμήματα κειμένου (φράσεις) σε δύο καλά εδραιωμένα βιοϊατρικά σύνολα δεδομένων. Με δεδομένο ένα απόσπασμα κειμένου και μια ερώτηση, επιλέγεται ως απάντηση ένα τμήμα του αποσπάσματος.Εξετάζουμε έξι τεχνικές επαύξησης δεδομένων που εφαρμόζεται πριν από την εκπαίδευση των μοντέλων.Δείχνουμε ότι όλες οι τεχνικές επαύξησης δεδομένων βελτιώνουν την απόδοση, ακόμα και όταν χρησιμοποιούνται ως δεδομένα για περαιτέρω εκπαίδευση (fine-tuning) όταν χρησιμοποιούνται μεγάλα προεκπαιδευμένα γλωσσικά μοντέλα.Δείχνουμε επίσης ότι η χρήση ενός από τα τεχνητά σύνολα δεδομένων που δημιουργήθηκαν σε αυτή τη διατριβή λειτουργεί ως μια καλή τεχνική επαύξησης δεδομένων.Τεκμήριο Deep neural networks for information mining from legal texts(04/19/2021) Chalkidis, Ilias; Χαλκίδης, Ηλίας; Athens University of Economics and Business, Department of Informatics; Aletras, Nikolaos; Vazirgiannis, Michalis; Vassalos, Vasilios; Koubarakis, Manolis; Konstas, Ioannis; Paliouras, Georgios; Androutsopoulos, IonLegal text processing (Ashley, 2017) is a growing research area where Natural Language Processing (NLP) techniques are applied in the legal domain. There are several applications such as legal text segmentation (Mencia, 2009; Hasan et al., 2008), legal topic classification (Mencia and Fürnkranzand, 2007; Nallapati and Manning, 2008), legal judgment prediction and analysis (Wang et al., 2012; Aletras et al., 2016), legal information extraction (Kiyavitskaya et al., 2008; Dozier et al., 2010; Asooja et al., 2015), and legal question answering (Kim et al., 2015b, 2016b). These applications and relevant NLP techniques arise from three main sub-domains, i.e, legislation, court cases, and legal agreements (contracts). In all three sub-domains, documents are much longer than in most other modern NLP applications. They also have different characteristics concerning the use of language, the writing style, and their structuring, compared to non-legal text. Given the rapid growth of deep learning technologies (Goodfellow et al., 2016; Goldberg, 2017), the goal of this thesis is to explore and advance deep learning methods for legal tasks, such as contract element and obligation extraction, legal judgment prediction, legal topic classification, and information retrieval, that have already been discussed in the literature (but not in the context of deep learning) or that were first addressed during the work of this thesis. In this direction, we aim to answer two main research questions: First and foremost on the adaptability of neural methods that have been proposed for related NLP tasks in other domains and how they are affected by legal language, writing, and structure; and second on providing explanations of neural models’ decisions (predictions). Considering the first research question we find and highlight several cases, where either legal language affects a model’s performance or suitable modeling is needed to imitate the document structure. To this end, we pre-train and use in-domain word representations and neural language models, while we also propose new methods with state-of-the-art performance. With respect to model explainability, we initially experiment with saliency (attention) heat-maps and highlight their limitations as a means for the explanation of the model’s decisions, especially in the most challenging task of legal judgment prediction, where it is most important. To overcome these limitations we further study rationale extraction techniques as a prominent methodology towards model explainability.In lack of publicly available annotated datasets in order to experiment with deep learning methods, we curate and publish five datasets for various legal tasks (contract element extraction, legal topic classification, legal judgment prediction and rationale extraction, and legal information retrieval), while we also publish legal word embeddings and a legal pre-trained language model to assist legal text processing research and development. We consider our work, a first, fundamental, step among other recent efforts, towards improving legal natural language understanding using state-of-the-art deep learning techniques, which further promotes the adaptation of new technologies and sheds light on the emerging field of legal text processing.Τεκμήριο Depression detection from transcribed dialogues using machine learning(12-12-2022) Δελής, Νικόλαος; Delis, Nikolaos; Athnes University of Economics and Business, Department of Informatics; Louridas, Panagiotis; Kotidis, Yannis; Androutsopoulos, IonΟι ψυχιϰές ασϑένειες είναι ένα πολύ συχνό φαινόμενο της σημερινής εποχής. Πολλοί άνϑρωποι ταλαιπωρούνται ϰαϑημερινά από ϰάποια ψυχιϰή ασϑένεια. Δυστυχώς, τις περισσότερες φορές δε γίνεται εύϰολα αντιληπτό, αϰόμα ϰαι από ειδιϰούς, η ύπαρξη μιας ψυχιϰής ασϑένειας. Πολλές ψυχιϰές ασϑένειες ϑέλουν εϰτενείς εξετάσεις ϰαι παραϰολούϑηση από ειδιϰούς, για να εξάγουν ϰάποια διάγνωση. Στην παρούσα διπλωματιϰή εργασία εξετάζουμε πως η επεξεργασία φυσιϰής γλώσσας, η μηχανιϰή μάϑηση ϰαι τα βαϑιά νευρωνιϰά δίϰτυα μπορούν να βοηϑήσουν στην αναγνώριση της ϰατάϑλιψης. Χρησιμοποιήσαμε ένα σύνολο δεδομένων το οποίο περιέχει ψυχοϑεραπευτιϰές συνεδρίες, στις οποίες οι συμμετέχοντες έχουν συμπληρώσει ένα ερωτηματολόγιο ανίχνευσης ϰατάϑλιψης. Στη συνέχεια περνούν από μια συνέντευξη με έναν ηλεϰτρονιϰό υπολογιστή, την Ellie την οποία χειρίζεται άνϑρωπος από άλλο δωμάτιο. Τα σύνολα δεδομένων στον ερευνητιϰό χώρο των ψυχιϰών ασϑενειών, είναι μιϰρά ϰαι εμφανίζουν συνήϑως μεγάλη ανισορροπία μεταξύ των ϰλάσεων, με την ϰλάση που αναφέρεται η αντίστοιχη ψυχιϰή ασϑένεια να είναι μειοψηφία. Και το διϰό μας σύνολο δεδομένων έχει παρόμοια χαραϰτηριστιϰά ϰαι γι’ αυτό τον λόγο δοϰιμάσαμε διάφορες τεχνιϰές επαύξησης δεδομένων. Δοϰιμάσαμε από απλές μεϑόδους, όπως η λογιστιϰή παλινδρόμηση, μέχρι ανατροφοδοτούμενα νευρωνιϰά δίϰτυα ϰαι μοντέλα Transformers. Δείξαμε πως αυτό το πρόβλημα είναι δύσϰολο να αντιμετωπιστεί με μεϑόδους μηχανιϰής μάϑησης ϰαι χρειάζεται περαιτέρω έρευνα στη συγϰεϰριμένη περιοχή. Επίσης, δείξαμε πως με εϰτενή ϰαι προσεϰτιϰή προεπεξεργασία των δεδομένων μας μπορούμε να πετύχουμε ιϰανοποιητιϰά αποτελέσματα, συγϰεϰριμένα 0.7 macro average F1 score. Τέλος, προτείνουμε πιϑανές ϰατευϑύνσεις για μελλοντιϰή έρευνα στο συγϰεϰριμένο σύνολο δεδομένων αλλά ϰαι στην συγϰεϰριμένη ερευνητιϰή περιοχή γενιϰότερα.Τεκμήριο Emotion-aware content representation and retrieval for movie dialogues(21-12-2018) Samoili, Varvara; Σαμοΐλη, Βαρβάρα; Athens University of Economics and Business, Department of Informatics; Giannakopoulos, Theodoros; Androutsopoulos, IonThe vast variety of information available on today’s web has created a need for state of-the-art Recommender Systems. Apart from collaborative methods, which are based on modeling the similarities between the preferences of different users, content-based retrieval applications for Recommender Systems and User Profiling, particularly in the area of movie recommendations, are also important. Their contribution become seven more valuable when, apart from static metadata, they also use underlying information related to the content consumed by the user. Furthermore, during the last two decades, Emotion Recognition has peaked the interest of researchers involved in Speech and Text Analytics. Meanwhile, emotion and the way it is conveyed is particularly important in films, as it undoubtedly plays a major role in the final aesthetic result. This leads us to believe that speech emotion in movie dialogues can act as an extra ‘dimension’ in content-based movie retrieval and recommendation, resulting in emotion-aware content-based movie retrieval.In this work, we show how specific high-level attributes, which derive from speech emotion estimates in movie dialogues, can constitute a discriminative factor when separating movie content. This is demonstrated through the use of an open and widely used dialogue benchmark, which first undergoes appropriate preprocessing. Experiments show that while, on one hand, emotion-based information alone is not a reliable enough factor for movie retrieval, there is, nonetheless, a statistically significant correlation between the ‘emotion-aware’ features and high-level movie attributes. Further research should be conducted in order to explore fusion methods of this emotion-based information along with metadata, as well as other types of content-based information(music, vision, etc.) towards the improvement of recommender systems.Τεκμήριο Examining how teacher-student approaches can benefit few-shot learning for toxicity detection tasks(30-12-2022) Αβραμίδου, Ναταλία; Avramidou, Natalia; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Androutsopoulos, IonΤhe evolution of social media platforms has introduced the need for systems that detect the toxic behavior of users. A Toxicity Detection system tries to detect user posts that are offensive and abusive. The field of Natural Language Processing (NLP) contributes to detecting this hateful content by automating it with classification models that categorize user posts as offensive or not offensive. As annotating thousands of examples for training (NLP) models is expensive, it is a significant challenge to train a model effectively with the least amount of labeled data. Although there is a lack of fully annotated datasets for many different tasks, usually, there is a much larger pool of task-specific unlabeled instances that could be used to improve a system’s performance. In this thesis, we will focus on: toxicity detection in Greek tweets and sexism detection in English posts. There are many methods explored in literature for few-shot learning scenarios. Self-training is a semi-supervised method where a Teacher model is initially trained on the few available labeled instances. Subsequently, it generates silver labels for the bigger pool of task-specific unlabeled data. In each round, it samples a number of silver-labeled examples, in most cases, based on the model’s confidence. These examples and their silver labels act as additional supervision to train a stronger Student model iteratively. Active Learning tries to maximize the system’s performance gain by identifying the most informative examples to be labeled by a human annotator or, in our case, to be selected among those silver-labeled by the Teacher. In this thesis, we focus on applying the Teacher-Student approach to detect toxic and sexist content when the initial training examples are limited. We also employ Active Learning criteria in the Self-training algorithm to examine if they could further benefit our system.Τhe evolution of social media platforms has introduced the need for systems that detect the toxic behavior of users. A Toxicity Detection system tries to detect user posts that are offensive and abusive. The field of Natural Language Processing (NLP) contributes to detecting this hateful content by automating it with classification models that categorize user posts as offensive or not offensive. As annotating thousands of examples for training (NLP) models is expensive, it is a significant challenge to train a model effectively with the least amount of labeled data. Although there is a lack of fully annotated datasets for many different tasks, usually, there is a much larger pool of task-specific unlabeled instances that could be used to improve a system’s performance. In this thesis, we will focus on: toxicity detection in Greek tweets and sexism detection in English posts. There are many methods explored in literature for few-shot learning scenarios. Self-training is a semi-supervised method where a Teacher model is initially trained on the few available labeled instances. Subsequently, it generates silver labels for the bigger pool of task-specific unlabeled data. In each round, it samples a number of silver-labeled examples, in most cases, based on the model’s confidence. These examples and their silver labels act as additional supervision to train a stronger Student model iteratively. Active Learning tries to maximize the system’s performance gain by identifying the most informative examples to be labeled by a human annotator or, in our case, to be selected among those silver-labeled by the Teacher. In this thesis, we focus on applying the Teacher-Student approach to detect toxic and sexist content when the initial training examples are limited. We also employ Active Learning criteria in the Self-training algorithm to examine if they could further benefit our system.Τεκμήριο Exploring deep learning methods for medical image tagging(26-10-2022) Χαραλαμπάκος, Φοίβος-Άγγελος; Charalampakos, Foivos-Angelos; Athens University of Economics and Business, Department of Informatics; Koutsopoulos, Iordanis; Kotidis, Yannis; Androutsopoulos, IonΗ κατηγοριοποίηση ιατρικών εικόνων είναι μια βασική τεχνική των συστημάτων διάγν-ωσης (Computer-Aided Diagnosis - CAD) και έχει γνωρίσει αξιοσημείωτες προόδουςμε τη χρήση τεχνικών Βαθιάς Μάθησης (Deep Learning). Η παρούσα διπλωματική ερ-γασία πραγματεύεται το πρόβλημα της ταξινόμησης ιατρικών εικόνων σε πολλές κατη-γορίες, που είναι γνωστό και ως επισημείωση ιατρικών εικόνων (Medical Image Tagging), εξερευνώντας μερικά από τα πιο πρόσφατα ερευνητικά θέματα στα πεδία τηςΒαθιάς Μάθησης και της Υπολογιστικής ́Ορασης (Computer Vision). Ο άμεσος στόχοςτου προβλήματος είναι η αυτόματη αναγνώριση ιατρικών όρων που περιγράφουν πι-θανά ευρήματα σε μια εικόνα και ο απώτερος σκοπός είναι να βοηθήσει τους ιατρούςστη διαδικασία διαγνώσεων. Προς αυτήν την κατεύθυνση, αναπτύσσουμε συστήματαπου χρησιμοποιούν νευρωνικά δίκτυα για την κωδικοποίηση των εικόνων (και επιπλέονπληροφορίας που μπορεί να βρίσκεται στα δεδομένα) σε συνδυασμό με ταξινομητέςμηχανικής μάθησης (Machine Learning) και μεθόδους ανάκτησης πληροφορίας (Information Retrieval) προκειμένου να γίνει η αντιστοίχιση των κατάλληλων όρων στις εικόνες.Τεκμήριο Exploring diagnostic captioning methods(11/09/2021) Karatzas, Vasilis; Καρατζάς, Βασίλης; Athnes University of Economics and Business, Department of Informatics; Vassalos, Vasilios; Koutsopoulos, Iordanis; Androutsopoulos, IonImage captioning has been researched a lot recently, but not much of that research has been applied to the biomedical domain. Diagnostic Captioning, the process of predicting diagnoses for medical images, can be very helpful for medical experts, since writing a diagnosis can be time-consuming and there is a lot of demand for it. In this master thesis the behavior of three types of models for diagnostic captioning is studied: image unaware unaware, retrieval, and image encoders combined with language models. The thesis also contains important findings on the difference that the preprocessing of the test captions can make in evaluation scores. Finally, this thesis concerns the participation of AUEB's NLP Group in the 2021 ImageCLEFmedical Caption competition, where the main driver was the author. The team earned the 2nd place among 8 teams with a retrieval based model.Τεκμήριο Exploring multimodal large language models for medical image captioning(20-12-2024) Σαμπροβαλάκη, Μαρίνα; Samprovalaki, Marina; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Papaioannou, Georgios; Androutsopoulos, IonΗ αυτόματη περιγραφή εικόνων ενσωματώνει προσεγγίσεις από την Υπολογιστική Όραση (Computer Vision, CV) και την Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) για να παρέχει αυτόματα μια σύντομη περιγραφή των βασικών χαρακτηριστικών μιας συγκεκριμένης εικόνας. Στον ιατρικό τομέα, αυτή η διαδικασία είναι γνωστή ως αυτόματη διαγνωστική περιγραφή εικόνας (Diagnostic Captioning, DC) και έχει ως στόχο όχι μόνο να περιγράψει την εικόνα, αλλά και να προσφέρει μια ιατρική διάγνωση γι' αυτήν. Αυτή η διαδικασία αποσκοπεί στο να βοηθήσει τους επαγγελματίες υγείας να έχουν μια αρχική εκτίμηση της κατάστασης του ασθενούς. Στο πλαίσιο αυτής της διπλωματικής εργασίας, αναπτύχθηκαν και παρουσιάζονται μεγάλα πολυτροπικά γλωσσικά μοντέλα που αναλύουν εικόνες και δημιουργούν περιγραφές με βάση τις οδηγίες του χρήστη. Επιπλέον, αναπτύχθηκαν τεχνικές όπου δίνονται ζευγάρια εικόνας και περιγραφής ως παραδείγματα, με σκοπό το μοντέλο να μιμηθεί την συμπερι- \\φορά τους και να παράξει νέες περιγραφές για άλλες εικόνες. Τέλος, εξετάζεται πώς ένα μικρότερο γλωσσικό μοντέλο, όσον αφορά τις παραμέτρους που χρησιμοποιούνται κατά την εκπαίδευση, συνδυάζει εναλλακτικές περιγραφές της ίδιας εικόνας για να δημιουργήσει μια πιο βελτιωμένη.Τεκμήριο Exploring the effects of Stochastic Gradient Descent variants on Transformer models for Natural Language Processing tasks(23-12-2022) Γκούτη, Μαρία-Νεφέλη; Gkouti, Maria-Nefeli; Athens University of Economics and Business, Department of Informatics; Markakis, Evangelos; Androutsopoulos, Ion; Toumpis, Stavros; Malakasiotis, ProdromosΟι περισσότεροι αλγόριθμοι στη Βαθιά μάθηση εμπεριέχουν τεχνικές βελτιστοποίησης. Με τον όρο βελτιστοποίηση εννοούμε την ελαχιστοποίηση μιας συνάρτησης. Η συνάρτη- ση αυτή ονομάζεται αντικειμενική συνάρτηση, και στην περίπτωση της Βαθιάς Μάθησης πολλές φορές καλείται συνάρτηση κόστους/σφάλματος. Ένας τέτοιος αλγόριθμος βελτι- στοποίησης βρίσκει τις τιμές των παραμέτρων (τα βάρη του νευρωνικού δικτύου) που ελαχιστοποιούν το σφάλμα του μοντέλου.Τα τελευταία χρόνια έχουν προταθεί μια πληθώρα τέτοιων αλγορίθμων, με πιο ευρέως διαδεδομένο τον Adam (Adaptive Moment Optimization algorithm). Ωστόσο, η μέχρι τώρα βιβλιογραφία απαριθμεί κάποιες εκατοντάδες τέτοιων μεθόδων, με τις περισσότερες να αποτελούν παραλλαγές του αλγορίθμου Adam. Το ερώτημα αν είναι καθοριστική στην απόδοση του μοντέλου, η επιλογή του αλγορίθμου βελτιστοποίησης είναι ανοιχτό. Εμπειρικά, φαίνεται ότι η καλύτερη επιλογή εξαρτάται από το πρόβλημα που καλείται να λύσει το νευρωνικό δίκτυο. Επιπλέον, τέτοιοι αλγόριθμοι περιέχουν αρκετές υπερπαραμέτρους, όπως είναι ο ρυθμός μάθησης (learning rate), στις οποίες αν εκχωρηθούν κατάλληλες τιμές, η απόδοση των αλγορίθμων αυξάνεται σημαντικά. Έχουν γίνει αρκετές προσπάθειες από ερευνητές, με σκοπό να αποφανθούν ποιος αλγόριθμος είναι προτιμότερος, σε σχέση με το ελάχιστο σφάλμα που παρουσιάζει το δίκτυο όταν εισάγουμε καινούρια δεδομένα και σε συνάρτηση πάντα με το υπολογιστικό κόστος που απαιτείται για να βρεθούν οι βέλτιστες τιμές των υπερπαραμέτρων του. Φαίνεται η επιστημονική κοινότητα να συγκλίνει στην άποψη ότι δεν υπάρχει αλγόριθμος βελτιστο- ποιήσης που να τα πηγαίνει καλύτερα σε όλα τα προβλήματα. Σε αυτή την εργασία, επιβεβαιώνουμε τον προηγούμενο ισχυρισμό, εστιάζοντας σε προβλήματα Επεργασίας Φυσικής Γλώσσας, και συγκεκριμένα σε προβλήματα ταξινόμησης κεινένων που εμπεριέχονται στο General Language Understanding Evaluation (GLUE) benchmark. Μελετάμε και συγκρίνουμε παραλλαγές του Adam, εξετάζοντας το ρόλο που παίζουν οι υπερπαράμετροι στην απόδοση τους. Στις περισσότερες περιπτώσεις οι διαφορές στην απόδοση τους είναι μικρές και συνήθως ασταθείς. Ένα ενδιαφέρον αποτέλεσμα αποτελεί ότι ο Stochastic Gradient Descent (SGD) with momentum έχει συγκρίσιμα αποτελέσματα με βελτιωμένες εκδοχές του Adam, ενώ ο απλός SGD εμφανίζει σημαντικά χειρότερα αποτελέσματα.Τεκμήριο Exploring uni-modal, multi-modal and few-shot deep learning methods for diagnostic captioning(30-11-2023) Καλιόσης, Παναγιώτης; Kaliosis, Panagiotis; Athens University of Economics and Business, Department of Informatics; Papaioannou, Georgios; Kotidis, Υannis; Androutsopoulos, IonΗ αυτόματη περιγραφή εικόνων είναι ένας τομέας που βρίσκεται στην τομή της Υπολογιστικής Όρασης (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP). Αφορά την αυτόματη παραγωγή ενός σύντομου κειμενου που περιγράφει τα βασικά χαρακτηριστικά μιας δεδομένης εικόνας. Σε συνδυασμό με την ραγδαία πρόοδο που έχει αναπτυχθεί στον τομέα της βαθιάς μάθησης, αυξημένη προσοχή έχουν λάβει μελέτες και ερευνητικά έργα που σχετίζονται με μοντέλα αυτόματης περιγραφής εικόνων στον τομέα της βιοϊατρικης. Η παρούσα διπλωματική εργασία επικεντρώνεται στον τομέα της αυτόματης περιγραφής ιατρικών εικόνων, που αναφέρεται επίσης ως παραγωγή διαγνωστικής περιγραφής. Ο στόχος των μοντέλων διαγνωστικής περιγραφής είναι η παραγωγή μίας διαγνωστικης αναφοράς που συνοψίζει την ιατρική κατάσταση ενός ασθενούς με βάση μία ή περισσότερες ακτινολογικές εικόνες. Ο κύριος στόχος είναι να βοηθήσουν το ιατρικό προσωπικό παρέχοντας μια αρχική εκτίμηση της κατάστασης του ασθενούς. Προς αυτή την κατεύθυνση, δημιουργήθηκαν και παρουσιάζονται στα πλαίσια αυτής της διπλωματικής εργασίας, μονοτροπικά και πολυτροπικά μοντέλα αυτόματης περιγραφής ιατρικών εικόνων με χρήση τεχνικών βαθιάς μάθησης, καθώς και μοντέλα που βασίζονται σε λίγα μόνο δεδομένα εκπαίδευσης. Εξετάστηκε ένα ευρύ φάσμα μεθόδων που καλύπτουν συμβατικές τεχνικές μετατροπής εικόνας σε κείμενο, πιο προηγμένες αρχιτεκτονικές βασισμένες σε μετασχηματιστές (Transformers), σύγχρονα συστήματα τελευταίας τεχνολογίας, καθώς και ένας νέος, εφαρμοσμένος αλγόριθμος καθοδηγούμενης αποκωδικοποίησης.Τεκμήριο Greek text-to-speech(12/04/2021) Matrapazis, Anastasios; Ματραπάζης, Αναστάσιος; Athens University of Economics and Business, Department of Informatics; Vassalos, Vasilios; Malakasiotis, Prodromos; Androutsopoulos, IonText-to-Speech (TTS) is a technology able to read aloud digital text. Nowadays, there has been significant progress in many applications, from virtual assistance and customer services to technologies that help people who struggle with reading. This study aims to train and evaluate a TTS deep learning model in the Greek language trying to copy the voice of a well-known Greek actress keeping the naturalness of the output speech. Our goal is to produce the actress's accent, making the output as identifiable as possible. Recent research has shown how TTS can be successfully addressed as a sequence-to-sequence (seq2seq) task followed by a vocoder. The seq2seq model predicts Mel-Spectrograms, a representation of the input in the frequency domain per time frame, given a text. Having a Mel-Spectrogram layout, the vocoder model synthesizes the time-domain waveform. This study is focused on training the auto-regressive Tacotron 2 implementation for the seq2seq task and the WaveGlow model for the vocoder. With the objective of simulating the actress’s voice, we collected our data samples from a podcast she hosted. Having the audio samples, we organized the dataset in the form of <text-audio sample> pairs. After the training process, our model achieved 3.48 MOS (Mean Opinion Score). Our Greek TTS model also accomplished 81% voice similarity with the original podcast hostess.Τεκμήριο Job recommendation system using deep learning(01/18/2019) Farmaki, Athanasia; Athens University of Economics and Business, Department of Informatics; Markakis, Evangelos; Androutsopoulos, IonThis is the report of a capstone project carried out for the MSc in Data Science at Athens University of Economics and Business. The objective of this project was to design a recommendation engine which, given information about a candidate’s interests, would be able to recommend relevant jobs. The task can be divided into two parts, an Information Retrieval (IR) part and a Machine Learning part. For the information retrieval part, Elastic Search engine was used in order to retrieve top 100 relevant jobs for a candidate. Then a deep neural network model called Deep Relevance Matching Model (DRMM) proposed by Guo et al was applied to rerank the results and retrieve the top 10 jobs for the candidate. The data used are given by the software recruitment company Workable and the evaluation of the results is done both automatically using typical IR measures and manually by examining the results one by one.Τεκμήριο Key information retrieval and borderless table location in scanned legal documents(13-03-2024) Αντώνιοζας, Παναγιώτης; Antoniozas, Panagiotis; Athens University of Economics and Business, Department of Informatics; Malakasiotis, Prodromos; Vassalos, Vasilios; Androutsopoulos, IonΗ σημασία της ανάκτησης σημαντικών στοιχείων (key information retrieval) και ο εντοπισμός αντικειμένων (object detection) σε νομικά έγγραφα αυξάνεται με την πάροδο των χρόνων, καθώς τα μοντέλα τεχνητής νοημοσύνης (AI) γίνονται ολοένα και πιο ικανά να λύσουν τέτοιου είδους προβλήματα. Μπορεί ο εντοπισμός αντικειμένων και η ανάκτηση σημαντικών στοιχείων να είναι δυο διαδικασίες που μοιάζουν μεταξύ τους, αλλά η τελευταία περιλαμβάνει μια πιο περιεκτική ανάλυση του περιεχομένου και της δομής των εγγράφων, περνώντας πέρα από τον απλό εντοπισμό αντικειμένων μέσα σε αυτά. Αυτή η εργασία επικεντρώνεται ειδικά στον συνδυασμό τεχνολογίας και νομικής επιστήμης, με στόχο να εξετάσει πώς η βαθιά μάθηση (deep learning) μπορεί να επαναπροσδιορίσει τις σταθερές που υπάρχουν για χρόνια στην επεξεργασία νομικών εγγράφων. Επιπρόσθετα προτείνει ολοκληρωμένες μεθοδολογίες για την επίλυση τέτοιου είδους προβλημάτων εντοπισμού, ενώ παράλληλα παρέχει υπηρεσίες στην Cognitiv+. Η μελέτη αυτή διαιρείται σε δύο μέρη. Το πρώτο μέρος επικεντρώνεται στο πρόβλημα ανάκτησης σημαντικών στοιχείων και έχει ως στόχο τον εντοπισμό δύο κρίσιμων στοιχείων που υπάρχουν στα τιμολόγια: την ημερομηνία έκδοσης και το συνολικό ποσό ενός τιμολογίου. Για τον σκοπό αυτό χρησιμοποιούνται δύο διαφορετικές προσεγγίσεις. Η πρώτη χρησιμοποιεί τελευταίας τεχνολογίας έτοιμα προς χρήση μοντέλα ερωταπαντήσεων όπως το GPT-4 Vision, το IDEFICS, καθώς και το μικρότερο Layoutlm-invoices, μια παραλλαγή του γνωστού LayoutLM απο την Impira. Η δεύτερη προσέγγιση περιλαμβάνει την επισημείωση (annotation) των τιμολογίων και την εκπαίδευση της πιο πρόσφατης έκδοσης του μοντέλου LayoutLM-base για κατηγοριοποίηση ακολουθιών (sequence classification). Το δεύτερο μέρος της έρευνας εστιάζει στον εντοπισμό αντικειμένων και πιο συγκεκριμένα τον εντοπισμό πινάκων χωρίς όρια (borderless tables) που είναι μια συνήθης μορφή σε οικονομικούς απολογισμούς. Επίσης προαιρετικός στόχος αποτελεί και η εξαγωγή των δεδομένων και της δομής από αυτούς τους πίνακες. Για την επίλυση αυτού του προβλήματος, ακολουθούνται δύο διαφορετικές προσεγγίσεις. Η πρώτη χρησιμοποιεί παραλλαγές από γνωστά για την αποτελεσματικότητα τους έτοιμα προς χρήση μοντέλα ανίχνευσης αντικειμένων (object detection models), που είναι ήδη εκπαιδευμένα σε δεδομένα σχετικά παρόμοια με αυτά που έχουμε στην διάθεση μας, όπως το DETR και το YOLOv8. H δεύτερη προσέγγιση περιλαμβάνει την εκπαίδευση ενός μοντέλου YOLOv8 μετά από την διαδικασία επισημείωσης των δεδομένων. Το πιο αποτελεσματικό μοντέλο από τα παραπάνω θα χρησιμοποιηθεί στη συνέχεια για την εξαγωγή πινάκων από τα σαρωμένα αρχεία (scanned documents), τροφοδοτώντας τους εντοπισμένους πίνακες στην Img2Table, που είναι μια βιβλιοθήκη της Python η οποία μπορεί να εξάγει την δομή και την πληροφορία των πινάκων στην επιθυμητή μορφή. Γενικότερα, αυτή η εργασία παρέχει λεπτομερείς πληροφορίες για τα δεδομένα, τη μεθοδολογία που ακολουθήθηκε, τα βήματα επισημείωσης των δεδομένων και τα αποτελέσματα κάθε μοντέλου, μαζί με πιθανούς λόγους επιτυχίας ή αποτυχίας τους. Τέλος, προτάσσονται επιπλέον πιθανές βελτιώσεις ή εναλλακτικές μέθοδοι που μπορούσαν να εξεταστούν.Τεκμήριο Neural graph representations and their application to link prediction(2020) Kotitsas, Sotiris; Κοτίτσας, Σωτήριος; Koutsopoulos, Iordanis; Papageorgiou, Haris; Androutsopoulos, Ion; Pappas, DimitrisIn this thesis, we experiment with the task of Link Prediction using Network Embedding(ne) methods. ne methods map network nodes to low-dimensional feature vectors and have wide applications in network analysis and bioinformatics. We consider separately the task of Link Prediction in graphs with only one type of relationship and in graphs with more than one type of relationship. The ultimate goal is to create methods capable of making novel predictions and helping in the Biomedical domain, e.g. covid-19 related predictions. To that end, we create a biomedical dataset containing Coronavirus related information complemented by entities and relationships acquired from the umls ontology. Secondly, we note that the ne methods can be categorized to methods that utilize only the structure of the graphs and to methods that also try to exploit metadata associated with graphs, e.g. textual descriptors of the nodes. We utilize the idea of incorporating textual with structural information and propose several novel architectures which try to tackle the problem of simple and multi-relational link prediction. We evaluate these approaches to several benchmark datasets and also show that our multi-relational methods are competitive against the state-of-the-art in two benchmark datasets. We also show that our approach yields the same results and even outperforms the state-of-the-art in some metrics in our COVID-related graph. Finally, we do predictions regarding the covid-19concept and try to show their novelty, by examining if we are discovering information that had not been published when the COVID-related graph was constructed.