Towards streamlining reproducibility studies in academic research
dc.aueb.department | Department of Management Science and Technology | |
dc.aueb.program | Business Analytics | |
dc.contributor.opponent | Chatziantoniou, Damianos | en |
dc.contributor.opponent | Papastefanatos, George | en |
dc.contributor.thesisadvisor | Papageorgiou, Haris | en |
dc.creator | Βρουβάκη, Ευρυδίκη | el |
dc.creator | Vrouvaki, Evrydiki | en |
dc.date.accessioned | 2025-05-22T06:18:10Z | |
dc.date.available | 2025-05-22T06:18:10Z | |
dc.date.issued | 2025-05-20 | |
dc.description.abstract | H παρούσα μεταπτυχιακή διπλωματική εργασία επικεντρώνεται στην αντιμετώπιση της δυσκολίας συνδυασμού και τυποποίησης των σχολίων μεταξύ διαφορετικών εργαλείων Επεξεργασίας Φυσικής Γλώσσας, ειδικά κατά την ανάλυση επιστημονικής βιβλιογραφίας. Η προτεινόμενη λύση βασίζεται σε μία γενικευμένη προσέγγιση αντιστοίχισης. Η προσέγγιση αυτή αντιστοιχεί τα ερευνητικά αντικείμενα σε επίπεδο πρότασης από το εργαλείο Research Artifact Analysis σε αρχεία CAS που δημιουργούνται μέσω της πλατφόρμας INCEpTION. Αυτή η ενσωμάτωση είναι κρίσιμη, καθώς αντιμετωπίζει ασυνέπειες στον διαχωρισμό προτάσεων, την κατάτμηση των λέξεων και τις μορφές κωδικοποίησης, οι οποίες αποτελούν σημαντικά εμπόδια για την αξιόπιστη αντιστοίχιση σχολίων. Για την εύρεση της πιο ακριβούς ευθυγράμμισης προτάσεων, η παρούσα έρευνα αξιοποιεί τεχνικές κανονικοποίησης κειμένου καθώς και τον αλγόριθμο Longest Common Subsequence. Για τη διασφάλιση υψηλής ακρίβειας, το πλαίσιο περιλαμβάνει επίσης μηχανισμούς που εφαρμόζουν αντιστοίχιση χωρίς διάκριση πεζών-κεφαλαίων και εναλλακτικές μεθόδους. Τα ερευνητικά αντικείμενα και τα αντίστοιχα μεταδεδομένα τους προστίθενται προγραμματιστικά στη δομή CAS. Η έρευνα αυτή συμβάλλει στην επιστημονική κοινότητα παρέχοντας ένα ευέλικτο πλαίσιο για τη βελτίωση της συνέπειας των σχολίων μεταξύ εργαλείων Επεξεργασίας Φυσικής Γλώσσας. Τα αποτελέσματά της ενισχύουν την ανάπτυξη πιο αξιόπιστων και αυτοματοποιημένων ροών εργασίας, με δυνατότητες εφαρμογής σε πολλούς επιστημονικούς τομείς. | el |
dc.description.abstract | The focus of this master thesis is to address the difficulty of combining and standardizing annotations across diverse Natural Language Processing tools, particularly when analyzing scientific literature. The suggested solution focuses on a generalized and mapping-based approach. This approach maps the research artifacts in sentence level from the Research Artifact Analysis tool to CAS files that are created within the INCEpTION platform. This integration is crucial in order to deal with inconsistencies in sentence segmentation, tokenization, and encoding formats, which are important barriers to reliable annotation mapping. In order to find the most accurate sentence alignments, this study makes use of text normalization techniques and the Longest Common Subsequence algorithm. In order to guarantee high annotation accuracy, the framework also includes mechanisms that use case-insensitive matching and alternative methods. Annotations for research artifacts and their associated metadata are programmatically added into the CAS structure. This research contributes to the scientific community by providing an adaptable framework in order to improve annotation consistency across NLP tools. Its outcomes support the development of more reliable and automated workflows, with potential applications in many fields. | en |
dc.embargo.rule | Open access | |
dc.format.extent | pages 86 | en |
dc.identifier.uri | https://pyxida.aueb.gr/handle/123456789/11983 | |
dc.language | en | |
dc.rights | Attribution 4.0 International | en |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Annotation mapping | en |
dc.subject | Sentence alignment | en |
dc.subject | Longest Common Subsequence (LCS) | en |
dc.subject | Reproducibility | en |
dc.subject | Natural Language Processing (NLP) | en |
dc.subject | INCEpTION | en |
dc.subject | Research Artifact Analysis (RAA) | en |
dc.subject | CAS files | en |
dc.subject | Text normalization | en |
dc.subject | Annotation tools integration | en |
dc.subject | Annotation consistency | en |
dc.subject | Αντιστοίχιση σχολίων | el |
dc.subject | Ευθυγράμμιση προτάσεων | el |
dc.subject | Μακρύτερη κοινή υποακολουθία | el |
dc.subject | Αναπαραγωγιμότητα | el |
dc.subject | Επεξεργασία φυσικής γλώσσας | el |
dc.subject | Αρχεία CAS | el |
dc.subject | Κανονικοποίηση κειμένου | el |
dc.subject | Ενοποίηση εργαλείων σχολιασμού | el |
dc.subject | Συνέπεια σχολίων | el |
dc.title | Towards streamlining reproducibility studies in academic research | en |
dc.title.alternative | Προς την απλοποίηση των μελετών αναπαραγωγιμότητας στην ακαδημαϊκή έρευνα | el |
dc.type | Text |
Αρχεία
Πρωτότυπος φάκελος/πακέτο
1 - 1 από 1