Digital methods for retrieval augmented generation in scholarly publications
Ημερομηνία
2026-03-26
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων / ουσα
Διαθέσιμο από
Περίληψη
The exponential growth and increasing complexity of specialized academic corpora present significant challenges for traditional information retrieval (IR) methods, which often struggle to maintain semantic coherence and factual accuracy. This thesis proposes a modular Agentic-GraphRAG architecture specifically designed to enhance information retrieval and question answering within knowledge-intensive domains. By combining the structured knowledge of a Neo4j Knowledge Graph with the dynamic orchestration capabilities of Large Language Models (LLMs), our approach provides a hybrid framework for navigating complex academic data.
Our methodology is engineered around four key components: 1) Knowledge Base Setup, utilizing the Scholarly Ontology to structure a knowledge graph from Humanities research articles; 2) Vector Embedding Integration, which augments graph nodes with Hugging Face embeddings to enable semantic similarity search; 3) Retrieval Tool Implementation, featuring a dual-pipeline consisting of a Vector-based RAG agent which utilises Hugging Face embeddings to retrieve data through cosine similarity and a GraphRAG agent that translates natural language into schema-compliant Cypher queries; and 4) Agentic Orchestration, where a LLM orchestrator with both retrievers and a zero-shot prompted LLM for generic queries at its disposal, dynamically selects the optimal retrieval route and generates grounded answers in natural language.
To evaluate the system, we created a manually curated evaluation dataset comprising diverse user queries. Utilizing the RAGAS framework, we conducted comparative experiments across Vector-Only, and Graph-Only setups as well as a hybrid system implementation featuring all system components. Results demonstrate that the Hybrid Agent achieved the highest overall performance, while the GraphRAG agent significantly outperformed the Vector configuration across all metrics. The system is deployed via a Streamlit-based graphical interface, providing the user with an interactive environment for dialogue. The proposed methodology highlights the advantages of integrating Knowledge Graphs and specifically the GraphRAG architecture for information retrieval in scholarly domains.Η εκθετική αύξηση και η αυξανόμενη πολυπλοκότητα των ακαδημαϊκών κειμένων παρουσιάζουν σημαντικές προκλήσεις για τις παραδοσιακές μεθόδους ανάκτησης πληροφορίας, οι οποίες συχνά δυσκολεύονται να διατηρήσουν τη σημασιολογική συνοχή και την ακρίβεια των πληροφοριών. Η παρούσα διπλωματική εργασία προτείνει μια αρχιτεκτονική τύπου Agentic-GraphRAG, ειδικά σχεδιασμένη για την ενίσχυση της ανάκτησης πληροφοριών και της απάντησης ερωτημάτων σε πεδία που άπτονται της εξειδικευμένης γνώσης σχετικά με τις ερευνητικές δραστηριότητες. Συνδυάζοντας τη δομημένη πληροφορία ενός Γράφου Γνώσης σε Neo4j με τις δυνατότητες δυναμικού συντονισμού (dynamic orchestration) των Μεγάλων Γλωσσικών Μοντέλων (Large Language Models -LLMs), η προτεινόμενη προσέγγισή παρέχει ένα δυναμικό πλαίσιο για πλοήγηση σε σύνθετα ακαδημαϊκά δεδομένα.
Η προτεινόμενη μεθοδολογία βασίζεται σε τέσσερα δομικά στοιχεία: 1) Δημιουργία του Γράφου Γνώσης από ερευνητικά άρθρα Ανθρωπιστικών Επιστημών, χρησιμοποιώντας την Scholarly Ontology -μια οντολογία ειδικά σχεδιασμένη για την αναπαράσταση και μοντελοποίηση ερευνητικών διεργασιών· 2) Ενσωμάτωση διανυσματικών αναπαραστάσεων κειμενικών δεδομένων (Vector Embeddings), οι οποίες εμπλουτίζουν τους κόμβους του Γράφου Γνώσης με Hugging Face embeddings προκειμένου να παρέχουμε επαυξημένες δυνατότητες σημασιολογικής αναζήτησης· 3) Ενσωμάτωση εργαλείων ανάκτησης πληροφορίας από τον γράφο γνώσης, μέσα από μία διπλή αρχιτεκτονική που αποτελείται από i) έναν Vector-based RAG agent που χρησιμοποιεί Hugging Face embeddings για να ανακτήσει δεδομένα μέσω ομοιότητας συνημιτόνου, και ii) έναν GraphRAG agent που μεταφράζει τη φυσική γλώσσα σε Cypher queries σύμφωνα με την οντολογία, ώστε να ανακτήσει δεδομένα διατρέχοντας τις ήδη ορισμένες οντότητες και σχέσεις· και 4) Agentic Ενορχήστρωση, κατά την οποία ένα LLM σε ρόλο ενορχηστρωτή έχοντας στη διάθεσή του τα δύο εργαλεία ανάκτησης καθώς και ένα zero-shot prompted LLM για ερωτήσεις γενικής φύσεως, επιλέγει δυναμικά τη βέλτιστη διαδρομή ανάκτησης και παράγει τεκμηριωμένες απαντήσεις σε φυσική γλώσσα.
Για την αξιολόγηση του συστήματος, δημιουργήθηκε ένα σύνολο δεδομένων αξιολόγησης που περιλαμβάνει ποικίλα ερωτήματα χρηστών. Χρησιμοποιώντας το πλαίσιο RAGAS, διεξήγαμε συγκριτικά πειράματα μεταξύ Vector-Only, και Graph-Only εφαρμογών, καθώς και ένα πείραμα αξιολόγησης υβριδικής εφαρμογής, που ενσωματώνει όλα τα εργαλεία του συστήματος. Τα αποτελέσματα υποδεικνύουν ότι ο υβριδικός agent πέτυχε την υψηλότερη συνολική απόδοση, ενώ ο GraphRAG agent υπερείχε σημαντικά του Vector agent σε όλους τους άξονες αξιολόγησης. Για την παροχή ενός διαδραστικού περιβάλλοντος διαλόγου χρήστη-συστήματος, αναπτύχθηκε επίσης μία γραφική διεπαφή βασισμένη στο Streamlit. Η έρευνα αυτή αναδεικνύει τα πλεονεκτήματα της ενσωμάτωσης των Γράφων Γνώσης και της αρχιτεκτονικής GraphRAG σε συστήματα ανάκτησης πληροφορίας για τη διασφάλιση της δυνατότητας ιχνηλάτησης και της ακρίβειας σε επιστημονικούς τομείς.
Περιγραφή
Λέξεις-κλειδιά
Retrieval Augmented Generation (RAG), Knowledge graphs, Agentic RAG, Information retrieval, Neo4j, Digital humanities, Ανάκτηση πληροφοριών, Γράφος γνώσης, Τεχνητή Νοημοσύνη (ΤΝ), Μεγάλα γλωσσικά μοντέλα

