Περίληψη : | Η διπλωματική εργασία αποτελεί κομμάτι μιας ευρύτερης ερευνητικής προσπάθειας που στοχεύει στην ανάπτυξη μιας βάσης γνώσεων ακαδημαϊκών πρακτικών εργασίας, η οποία θα χρησιμοποιεί ως εννοιολογικό πλαίσιο τη Scholarly Ontology και θα αξιοποιεί ψηφιακούς πόρους με σκοπό τη συγκέντρωση, διασύνδεση και εξαγωγή πληροφοριών που περιλαμβάνονται σε ακαδημαϊκές δημοσιεύσεις.Στόχος της παρούσας εργασίας είναι η εξαγωγή πληροφορίας από ακαδημαϊκά άρθρα με χρήση διαφορετικών μεθόδων Μηχανικής Μάθησης. Πιο συγκεκριμένα, το ενδιαφέρον στρέφεται γύρω από τις δραστηριότητες που υλοποιήθηκαν στο πλαίσιο της έρευνας (Activity), τους σκοπούς για τους οποίους αυτές επιτελέστηκαν (Goal), αλλά και τους ισχυρισμούς που προκύπτουν ως αποτέλεσμα των δραστηριοτήτων (Assertion). Οι συγκεκριμένες πληροφορίες οργανώνονται και συσχετίζονται βάσει της Scholarly Ontology.Αρχικά πραγματοποιήθηκε διαδικασία χειροκίνητης επισημείωσης 9.816 προτάσεων από 3.000 άρθρα από τον χώρο των ανθρωπιστικών και κοινωνικών επιστημών, που αντλήθηκαν από τη βιβλιοθήκη JSTOR. Αυτά τα δεδομένα χρησιμοποιήθηκαν για την εκπαίδευση μοντέλων Μηχανικής Μάθησης. Εκπαιδεύσαμε αλγορίθμους με ενσωμάτωση λεξιλογικών διανυσμάτων από τρία διαφορετικά σύνολα δεδομένων, που περιέχουν αντίστοιχα 1) 200.945 προτάσεις περιλήψεων από 21.378 δημοσιεύσεις, 2) 10.579.698 προτάσεις από 25.681 δημοσιεύσεις και 3) 3.622.125 προτάσεις από 23.886 δημοσιεύσεις που προέκυψαν μετά από διαδικασία καθαρισμού του δεύτερου συνόλου. Σκοπός αυτής της διαδικασίας είναι η ποιοτική ανάλυση των επιμέρους κειμενικών δεδομένων, αξιολογώντας κατά πόσο βελτιώνουν τη διαδικασία εξαγωγής πληροφορίας από δημοσιεύσεις, σε σύγκριση με προεκπαιδευμένα διανύσματα.Επιπρόσθετα εκπαιδεύτηκαν αλγόριθμοι με ενσωμάτωση των μοντέλων Βαθιάς Μάθησης BERT και ROBERTa για την αυτόματη εξαγωγή των οντοτήτων Activity, Goal, Assertion από ακαδημαϊκές δημοσιεύσεις. Στη διαδικασία απομόνωσης και εξαγωγής πληροφορίας, ο αλγόριθμος με το γλωσσικό μοντέλο ROBERTa έφερε τα υψηλότερα αποτελέσματα αξιολόγησης και για τις τρεις κλάσεις.Τέλος αποπειραθήκαμε, μέσω λεξικο-συντακτικών κανόνων, τη μετεπεξεργασία προτάσεων που εμπίπτουν στην κλάση Activity, οι οποίες αναφέρονται ταυτόχρονα σε πολλές ερευνητικές δραστηριότητες,. Οι προτάσεις αυτές περιλαμβάνουν είτε ένα ρήμα στο οποίο αποδίδονται παραπάνω από ένα υποκείμενα ή αντικείμενα είτε πολλαπλά ρήματα από τα οποία εξαρτάται το ίδιο υποκείμενο ή αντικείμενο. This thesis is part of a greater research effort which has the objective to create a knowledge base of research processes which will be organized according to Scholarly Ontology and use various digital resources, in order to collect, interconnect and extract information from academic papers.The aim of this thesis is to extract information from academic articles using different Machine Learning methods. More specifically, our interest revolves around the activities which are carried out during a research process (Activity), the purposes for which these activities were conducted (Goal) and the scientific assertions that arise from these activities (Assertion). These data are organized and connected according to Scholarly Ontology.First, we annotated manually 9.816 sentences from 3.000 humanities and social sciences publications provided by the JSTOR library. These data were used for training Machine Learning models. We trained classifiers through transfer learning using word embeddings created from three different datasets, each of them containing: 1) 200.945 sentences from abstracts of 21.378 papers, 2) 10.579.698 sentences from 25.681 papers, 3) 3.622.125 sentences from 23.886 papers which resulted from a cleaning process of the second dataset. Our objective was to carry out a data analysis, in order to have a clear picture of the quality of the data in these datasets. The purpose of this task is the qualitative analysis of the textual data from each dataset, evaluating how much they improve the process of extracting information from publications compared to pre-trained vectors.We also employed deep learning language models using BERT και ROBERTa Transformer architectures in order to extract textual spans representing the entities of Activity, Goal and Assertion from academic publications with ROBERTa model yieldeding the highest evaluation results for all three classes.Finally, we created postprocessing rules for identifying and restructuring sentences with composite Activity entities. These sentences contain either a verb from which multiple subjects or objects are depended on, or multiple verbs linked to one subject or object.
|
---|