Περίληψη : | Οι βάσεις γνώσης αποτελούν ισχυρά εργαλεία οργάνωσης, συσχέτισης και ανάκτησης σύνθετων πληροφοριών. Στην επιστημονική έρευνα, και ιδιαίτερα σε διεπιστημονικά πεδία όπως οι Ψηφιακές Ανθρωπιστικές Επιστήμες, όπου η έρευνα περιλαμβάνει συσχετίσεις ετερογενών δεδομένων, η χρήση τέτοιων προηγμένων βάσεων δεδομένων οι οποίες προσφέρουν δυνατότητες ανάκτησης πληροφοριών και ερμηνεία σύνθετων ερωτημάτων, μπορούν να ωφελήσουν τους ερευνητές. Η παρούσα διπλωματική εργασία αποσκοπεί στη δημιουργία μιας τέτοιας Βάσης Γνώσης (ΒΓ) που θα περιλαμβάνει πληροφορίες από επιστημονικές δημοσιεύσεις στις Ανθρωπιστικές Επιστήμες. Για να επιτευχθεί αυτό, η ΒΓ δομήθηκε σύμφωνα με την Scholarly Ontology (SO), ένα εννοιολογικό μοντέλο σχεδιασμένο για την τεκμηρίωση ερευνητικών ροών εργασίας. Το σχήμα που εφαρμόστηκε περιλαμβάνει οντότητες της SO όπως Person, Method, Activity, Goal, Article, Topic, Organization, επιτρέποντας ερωτήματα όπως «ποιος» έχει κάνει «τι», «γιατί», «πώς» κ.λπ.Η ΒΓ δημιουργήθηκε στο σύστημα διαχείρισης δεδομένων Neo4j. Η μεθοδολογία που ακολουθήθηκε είχε ως αφετηρία τον σχεδιασμό του σχήματος που θα δομούσε τον Γράφο Γνώσης σύμφωνα με την SO. Ακολούθησε η δημιουργία κόμβων, σχέσεων και ιδιοτήτων μέσω Python scripts, και η εισαγωγή των δεδομένων τα οποία αποτελούνται από 13.768 προτάσεις -από ερευνητικές δημοσιεύσεις- επισημειωμένες με τις αντίστοιχες οντότητες της SO. Η δομή της ΒΓ αναδιαμορφώθηκε, ώστε να βελτιστοποιηθεί η απόδοσή της σε μεγαλύτερη κλίμακα δεδομένων. Η ανάκτηση πληροφοριών από τη ΒΓ έγινε μέσω πολλαπλών τύπων ερωτημάτων Cypher, ενώ ορίστηκαν ευρετήρια σε συγκεκριμένες ιδιότητες κόμβων για τη βελτίωση της απόδοσης των ερωτημάτων. Επιπλέον, χρησιμοποιήθηκαν αλγόριθμοι της Graph Data Science, προκειμένου να υπολογιστούν μέτρα κεντρικότητας, να εντοπιστούν ομάδες κόμβων με παρόμοια χαρακτηριστικά και να βρεθούν συνδεδεμένα μονοπάτια εντός του γράφου. Τέλος, για την περαιτέρω διερεύνηση των δυνατοτήτων της δομής της ΒΓ, χρησιμοποιήθηκε ο αλγόριθμος FastRP για τη δημιουργία graph embeddings για έναν συγκεκριμένο κόμβο (Activity) και χρησιμοποιήθηκε ο αλγόριθμος KNN για τον εντοπισμό παρόμοιων επιστημονικών δραστηριοτήτων αξιολογώντας τις αποστάσεις μεταξύ των graph embeddings τους. Knowledge bases are powerful tools for organizing, linking, and retrieving complex information. In scholarly research and especially in multidisciplinary fields like Digital Humanities, where research involves connections between heterogeneous data, the use of such advanced database technologies can prove to be instrumental in meeting scholars' information needs, offering retrieval capabilities that allow for complex query answering. The work presented in this thesis aims to build such a Knowledge Base (ΚΒ) with information extracted from scholarly publications in Humanities. To achieve this, the KB is structured according to Scholarly Ontology (SO), a conceptual framework specifically designed for documenting research processes. The incorporated schema includes SO entities such as Person, Method, Activity, Goal, Article, Topic, Organization, that allow for answering questions like 'who' has done 'what', 'why', 'how', etc. The database was built using the Neo4j management system. The methodology we employed was initiated with the design of the schema that structured the knowledge graph based on SO. Then, we developed specific scripts in Python in order to create the nodes, relationships, and properties in the KB and import our dataset, consisting of 13,768 sentences -from research publications- annotated with the corresponding SO entities. The structure of the KB was refactored, to optimize for scale. Retrieval capabilities of the KB were assessed through multiple types of Cypher queries, while specific node properties were indexed to improve performance. In addition, we employed Graph Data Science algorithms, in order to calculate centrality metrics, detect clusters of nodes with similar features and find connected paths within the graph. Finally, to further explore the capabilities of our knowledge graph's structure, we used FastRP algorithm to create graph embeddings for a specific node type (i.e. Activity) and employed the KNN algorithm to identify similar scholarly activities by evaluating the distances among their embeddings.
|
---|