Abstract : | Η παρούσα διπλωματική εργασία αποτελεί ένα ερευνητικό έργο που στοχεύει στην ανάπτυξη μιας βάσης γνώσεων σχετικές με τις ακαδημαϊκές και ερευνητικές δραστηριότητες όπως αυτές αποτυπώνονται στα ερευνητικά συγγράμματα. H ροή εργασίας που αναπτύσσεται και παρουσιάζεται στηρίζεται στην oντολογία Scholarly Ontology (SO), ένα εννοιολογικό πλαίσιο ειδικά σχεδιασμένο για την τεκμηρίωση επιστημονικής δραστηριότητας. Παράλληλα, εξετάζεται η χρήση μεθόδων Μηχανικής και Βαθιάς Μάθησης καθώς και επαγωγικών κανόνων για τη συλλογή, ανάλυση, εξαγωγή και διασύνδεση δεδομένων που περιέχονται σε ακαδημαϊκές δημοσιεύσεις.Πιο συγκεκριμένα, στόχος της διπλωματικής εργασίας είναι η δημιουργία ενός Γράφου Γνώσης για τα ερευνητικά ευρήματα μαζί με τις υπονοούμενες δραστηριότητες που οδηγούν σε αυτά. Για τον σκοπό αυτό, προτείνεται η επέκταση της Scholarly Ontology (SO) με δύο νέες κλάσεις, Finding και Implied Activity, οι οποίες υποστηρίζουν την τεκμηρίωση των υπό εξέταση οντοτήτων με πραγματώσεις που εξάγονται από το κείμενο των ερευνητικών συγγραμμάτων. Παράλληλα προτείνονται κατάλληλες αντιστοιχίσεις με αντίστοιχες κλάσεις άλλων οντολογικών μοντέλων. Για την αυτόματη εξαγωγή των οντοτήτων από κείμενο, δημιουργήθηκε ένα σύνολο δεδομένων 7.000 χειροκίνητα επισημειωμένων προτάσεων από 3.081 άρθρα, τα οποία αντλήθηκαν από την ψηφιακή βιβλιοθήκη JSTOR. Στη συνέχεια χρησιμοποιήσαμε αυτές τις επισημειωμένες προτάσεις προκειμένου να εκπαιδεύσουμε / αξιολογήσουμε συνολικά 3 διαφορετικές μεθόδους μηχανικής και βαθιάς μάθησης για κάθε κλάση. Πρόκειται για τα μοντέλα F-BERT-base-NER, F-RoBERTa-base, για την εξαγωγή των Findings και IA-BERT-base-NER και IA-RoBERTa-base για την εξαγωγή των Implied Activities που χρησιμοποιούν αντίστοιχα τα προεκπαιδευμένα γλωσσικά μοντέλα βαθιάς μάθησης: BERT-base-NER και RoBERTa-base για την διανυσματική αναπαράσταση των λέξεων και transition-based parsers για την ταξινόμηση (classification) αυτών. Επιπρόσθετα ως baseline για κάθε κλάση χρησιμοποιήθηκε το βασικό μοντέλο ανίχνευσης οντοτήτων της βιβλιοθήκης spaCy NER. Όλα τα μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν στα ίδια σύνολα δεδομένων.Για την εξαγωγή σχέσεων ανάμεσα στις εξαχθείσες οντότητες, δημιουργήσαμε επαγωγικούς κανόνες που συσχετίζουν την υπονοούμενη δραστηριότητα με το ερευνητικό εύρημα μέσω της σχέσης ResultsIn (Implied Activity, Finding) και της αντίστροφής της IsResultOf (Finding, Implied Activity) στηριζόμενοι στην συνύπαρξη των δύο οντοτήτων μέσα στην ίδια πρόταση. Επίσης δημιουργήθηκαν κανόνες για την εξαγωγή και τη συσχέτιση των μεταδεδομένων των δημοσιεύσεων με τις προτεινόμενες οντότητες. Τέλος, δημιουργήσαμε URIs για τις οντότητες και τα μεταδεδομένα με σκοπό την κατασκευή του RDF Γράφου Γνώσης, τηρουμένων των προτύπων των Διασυνδεδεμένων Δεδομένων. This thesis constitutes a research project that aims to develop a knowledge base related to the academic and research activities as they are reflected in the research papers. The workflow developed and presented is based on the Scholarly Ontology (SO), a conceptual framework specifically designed for the documentation of scholarly work. At the same time, the use of Machine and Deep Learning methods as well as inferencing rules for the collection, analysis, extraction and interconnection of data contained in academic publications are examined.More specifically, the aim of the thesis is to create a Knowledge Graph for research Findings along with the Implied Activities that lead to them. For this purpose, it is proposed to extend the Scholarly Ontology (SO) with two new classes, Finding and Implied Activity, which support the documentation of the entities under consideration with instances extracted from the text of research papers. At the same time, appropriate mappings with corresponding classes of other ontological models are proposed.To automatically extract the entities from text, a dataset of 7,000 manually labeled sentences from 3,081 articles, which were drawn from the JSTOR digital library, was created. We then used these labeled sentences to train/evaluate a total of 3 different Machine and Deep Learning methods for each class. These are the models F-BERT-base-NER, F-RoBERTa-base, for the extraction of the Findings and IA-BERT-base-NER and IA-RoBERTa-base for the extraction of the Implied Activities which respectively use the pre-trained language models of Deep Learning: BERT-base-NER and RoBERTa-base for the vector representation of words and transition-based parsers for their classification. Additionally, the basic entity detection model of the spaCy NER library was used as a baseline for each class. All models were trained and evaluated on the same data sets.To create relationships between the extracted entities, we created inferencing rules that relate the implied activity to the research finding through the relation ResultsIn (Implied Activity, Finding) and its inverse IsResultOf (Finding, Implied Activity) based on the coexistence of the two entities within the same sentence. Rules were also created for extracting and associating publication metadata with the proposed entities. Finally, we created URIs for the entities and metadata in order to build the RDF Knowledge Graph, following the standards of Linked Data.
|
---|