Λογότυπο αποθετηρίου
 

Towards streamlining reproducibility studies in academic research

dc.aueb.departmentDepartment of Management Science and Technology
dc.aueb.programBusiness Analytics
dc.contributor.opponentChatziantoniou, Damianosen
dc.contributor.opponentPapastefanatos, Georgeen
dc.contributor.thesisadvisorPapageorgiou, Harisen
dc.creatorΒρουβάκη, Ευρυδίκηel
dc.creatorVrouvaki, Evrydikien
dc.date.accessioned2025-05-22T06:18:10Z
dc.date.available2025-05-22T06:18:10Z
dc.date.issued2025-05-20
dc.description.abstractH παρούσα μεταπτυχιακή διπλωματική εργασία επικεντρώνεται στην αντιμετώπιση της δυσκολίας συνδυασμού και τυποποίησης των σχολίων μεταξύ διαφορετικών εργαλείων Επεξεργασίας Φυσικής Γλώσσας, ειδικά κατά την ανάλυση επιστημονικής βιβλιογραφίας. Η προτεινόμενη λύση βασίζεται σε μία γενικευμένη προσέγγιση αντιστοίχισης. Η προσέγγιση αυτή αντιστοιχεί τα ερευνητικά αντικείμενα σε επίπεδο πρότασης από το εργαλείο Research Artifact Analysis σε αρχεία CAS που δημιουργούνται μέσω της πλατφόρμας INCEpTION. Αυτή η ενσωμάτωση είναι κρίσιμη, καθώς αντιμετωπίζει ασυνέπειες στον διαχωρισμό προτάσεων, την κατάτμηση των λέξεων και τις μορφές κωδικοποίησης, οι οποίες αποτελούν σημαντικά εμπόδια για την αξιόπιστη αντιστοίχιση σχολίων. Για την εύρεση της πιο ακριβούς ευθυγράμμισης προτάσεων, η παρούσα έρευνα αξιοποιεί τεχνικές κανονικοποίησης κειμένου καθώς και τον αλγόριθμο Longest Common Subsequence. Για τη διασφάλιση υψηλής ακρίβειας, το πλαίσιο περιλαμβάνει επίσης μηχανισμούς που εφαρμόζουν αντιστοίχιση χωρίς διάκριση πεζών-κεφαλαίων και εναλλακτικές μεθόδους. Τα ερευνητικά αντικείμενα και τα αντίστοιχα μεταδεδομένα τους προστίθενται προγραμματιστικά στη δομή CAS. Η έρευνα αυτή συμβάλλει στην επιστημονική κοινότητα παρέχοντας ένα ευέλικτο πλαίσιο για τη βελτίωση της συνέπειας των σχολίων μεταξύ εργαλείων Επεξεργασίας Φυσικής Γλώσσας. Τα αποτελέσματά της ενισχύουν την ανάπτυξη πιο αξιόπιστων και αυτοματοποιημένων ροών εργασίας, με δυνατότητες εφαρμογής σε πολλούς επιστημονικούς τομείς.el
dc.description.abstractThe focus of this master thesis is to address the difficulty of combining and standardizing annotations across diverse Natural Language Processing tools, particularly when analyzing scientific literature. The suggested solution focuses on a generalized and mapping-based approach. This approach maps the research artifacts in sentence level from the Research Artifact Analysis tool to CAS files that are created within the INCEpTION platform. This integration is crucial in order to deal with inconsistencies in sentence segmentation, tokenization, and encoding formats, which are important barriers to reliable annotation mapping. In order to find the most accurate sentence alignments, this study makes use of text normalization techniques and the Longest Common Subsequence algorithm. In order to guarantee high annotation accuracy, the framework also includes mechanisms that use case-insensitive matching and alternative methods. Annotations for research artifacts and their associated metadata are programmatically added into the CAS structure. This research contributes to the scientific community by providing an adaptable framework in order to improve annotation consistency across NLP tools. Its outcomes support the development of more reliable and automated workflows, with potential applications in many fields.en
dc.embargo.ruleOpen access
dc.format.extentpages 86en
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/11983
dc.languageen
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectAnnotation mappingen
dc.subjectSentence alignmenten
dc.subjectLongest Common Subsequence (LCS)en
dc.subjectReproducibilityen
dc.subjectNatural Language Processing (NLP)en
dc.subjectINCEpTIONen
dc.subjectResearch Artifact Analysis (RAA)en
dc.subjectCAS filesen
dc.subjectText normalizationen
dc.subjectAnnotation tools integrationen
dc.subjectAnnotation consistencyen
dc.subjectΑντιστοίχιση σχολίωνel
dc.subjectΕυθυγράμμιση προτάσεωνel
dc.subjectΜακρύτερη κοινή υποακολουθίαel
dc.subjectΑναπαραγωγιμότηταel
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΑρχεία CASel
dc.subjectΚανονικοποίηση κειμένουel
dc.subjectΕνοποίηση εργαλείων σχολιασμούel
dc.subjectΣυνέπεια σχολίωνel
dc.titleTowards streamlining reproducibility studies in academic researchen
dc.title.alternativeΠρος την απλοποίηση των μελετών αναπαραγωγιμότητας στην ακαδημαϊκή έρευναel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Vrouvaki_2025.pdf
Μέγεθος:
2.22 MB
Μορφότυπο:
Adobe Portable Document Format