Βρουβάκη, ΕυρυδίκηVrouvaki, Evrydiki2025-05-222025-05-222025-05-20https://pyxida.aueb.gr/handle/123456789/11983H παρούσα μεταπτυχιακή διπλωματική εργασία επικεντρώνεται στην αντιμετώπιση της δυσκολίας συνδυασμού και τυποποίησης των σχολίων μεταξύ διαφορετικών εργαλείων Επεξεργασίας Φυσικής Γλώσσας, ειδικά κατά την ανάλυση επιστημονικής βιβλιογραφίας. Η προτεινόμενη λύση βασίζεται σε μία γενικευμένη προσέγγιση αντιστοίχισης. Η προσέγγιση αυτή αντιστοιχεί τα ερευνητικά αντικείμενα σε επίπεδο πρότασης από το εργαλείο Research Artifact Analysis σε αρχεία CAS που δημιουργούνται μέσω της πλατφόρμας INCEpTION. Αυτή η ενσωμάτωση είναι κρίσιμη, καθώς αντιμετωπίζει ασυνέπειες στον διαχωρισμό προτάσεων, την κατάτμηση των λέξεων και τις μορφές κωδικοποίησης, οι οποίες αποτελούν σημαντικά εμπόδια για την αξιόπιστη αντιστοίχιση σχολίων. Για την εύρεση της πιο ακριβούς ευθυγράμμισης προτάσεων, η παρούσα έρευνα αξιοποιεί τεχνικές κανονικοποίησης κειμένου καθώς και τον αλγόριθμο Longest Common Subsequence. Για τη διασφάλιση υψηλής ακρίβειας, το πλαίσιο περιλαμβάνει επίσης μηχανισμούς που εφαρμόζουν αντιστοίχιση χωρίς διάκριση πεζών-κεφαλαίων και εναλλακτικές μεθόδους. Τα ερευνητικά αντικείμενα και τα αντίστοιχα μεταδεδομένα τους προστίθενται προγραμματιστικά στη δομή CAS. Η έρευνα αυτή συμβάλλει στην επιστημονική κοινότητα παρέχοντας ένα ευέλικτο πλαίσιο για τη βελτίωση της συνέπειας των σχολίων μεταξύ εργαλείων Επεξεργασίας Φυσικής Γλώσσας. Τα αποτελέσματά της ενισχύουν την ανάπτυξη πιο αξιόπιστων και αυτοματοποιημένων ροών εργασίας, με δυνατότητες εφαρμογής σε πολλούς επιστημονικούς τομείς.The focus of this master thesis is to address the difficulty of combining and standardizing annotations across diverse Natural Language Processing tools, particularly when analyzing scientific literature. The suggested solution focuses on a generalized and mapping-based approach. This approach maps the research artifacts in sentence level from the Research Artifact Analysis tool to CAS files that are created within the INCEpTION platform. This integration is crucial in order to deal with inconsistencies in sentence segmentation, tokenization, and encoding formats, which are important barriers to reliable annotation mapping. In order to find the most accurate sentence alignments, this study makes use of text normalization techniques and the Longest Common Subsequence algorithm. In order to guarantee high annotation accuracy, the framework also includes mechanisms that use case-insensitive matching and alternative methods. Annotations for research artifacts and their associated metadata are programmatically added into the CAS structure. This research contributes to the scientific community by providing an adaptable framework in order to improve annotation consistency across NLP tools. Its outcomes support the development of more reliable and automated workflows, with potential applications in many fields.pages 86Attribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/Annotation mappingSentence alignmentLongest Common Subsequence (LCS)ReproducibilityNatural Language Processing (NLP)INCEpTIONResearch Artifact Analysis (RAA)CAS filesText normalizationAnnotation tools integrationAnnotation consistencyΑντιστοίχιση σχολίωνΕυθυγράμμιση προτάσεωνΜακρύτερη κοινή υποακολουθίαΑναπαραγωγιμότηταΕπεξεργασία φυσικής γλώσσαςΑρχεία CASΚανονικοποίηση κειμένουΕνοποίηση εργαλείων σχολιασμούΣυνέπεια σχολίωνTowards streamlining reproducibility studies in academic researchΠρος την απλοποίηση των μελετών αναπαραγωγιμότητας στην ακαδημαϊκή έρευναTextPapageorgiou, Haris