Λογότυπο αποθετηρίου
 

Leveraging retrieval-augmented generation for student support: a document-centric QA system for the AUEB informatics studies guide

dc.aueb.departmentDepartment of Informatics
dc.contributor.opponentAndroutsopoulos, Ionen
dc.contributor.opponentStafylakis, Themosen
dc.creatorMitsakis, Nikosen
dc.creatorΜητσάκης, Νικόλαοςel
dc.date.accessioned2025-11-19T13:03:25Z
dc.date.available2025-11-19T13:03:25Z
dc.date.issued2025-07
dc.description.abstractThis thesis examines the design, development, and evaluation of a Retrieval-Augmented Generation (RAG) system specifically designed to support undergraduate students in the Department of Informatics at the Athens University of Economics and Business (AUEB). The central objective is to create a cost-effective yet high-quality AI assistant capable of answering studies guide-related questions, ensuring that all responses are explicitly grounded in the latest edition of the department's official Studies Guide. To achieve this, the system ingests the newest version of the Studies Guide. It represents its contents at three levels of granularity: chunks (bodies of text corresponding to paragraphs or groups of paragraphs on a specific topic, based on the document’s structure), sentences (extracted by sentence tokenizing each chunk), and propositions (decontextualized factual statements synthetically generated from the chunks). The retrieval architecture explores traditional lexical search (BM25), dense vector search, and a hybrid ensemble retriever to maximize retrieval coverage and relevance. Question-answering capabilities are assessed using both real-world and synthetic QA pairs, with the generation module leveraging self-hosted state-of-the-art large language models (LLMs). The thesis conducts a comprehensive evaluation across all document granularities and retrieval configurations, employing both classical information retrieval metrics and more modern LLM-based evaluation. Results demonstrate the feasibility of delivering a factual, responsive, and modular assistant using modest computational resources. The thesis further discusses the limitations and potential extensions of the approach, aiming to provide a blueprint for deploying similar RAG-based assistants in other academic settings.en
dc.description.abstractΗ παρούσα πτυχιακή εργασία εξετάζει το σχεδιασμό, την ανάπτυξη και την αξιολόγηση ενός συστήματος τύπου Retrieval-Augmented Generation (RAG), ειδικά διαμορφωμένου ώστε να υποστηρίζει τους προπτυχιακούς φοιτητές του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών (ΟΠΑ). Ο κεντρικός στόχος είναι η δημιουργία ενός οικονομικά προσιτού αλλά υψηλής ποιότητας βοηθού τεχνητής νοημοσύνης, ικανού να απαντά σε ερωτήσεις που σχετίζονται με τις σπουδές τους, διασφαλίζοντας ότι όλες οι απαντήσεις είναι τεκμηριωμένες αποκλειστικά βάσει της τελευταίας έκδοσης του επίσημου Οδηγό Σπουδών του Τμήματος. Για το σκοπό αυτό, το σύστημα ενσωματώνει την πιο πρόσφατη έκδοση του Οδηγού Σπουδών, αναπαριστώντας το περιεχόμενό του σε τρία διαφορετικά επίπεδα: τα chunks (τμήματα κειμένου που αντιστοιχούν σε παραγράφους ή ομάδες παραγράφων με βάση τη δομή του εγγράφου), τις προτάσεις (που προκύπτουν από τον τεμαχισμό των chunks σε επιμέρους προτάσεις) και τις αποπλαισιωμένες προτάσεις (δηλώσεις γεγονότων που παράγονται συνθετικά από τα chunks, ως αυτόνομες πληροφορίες). Η αρχιτεκτονική ανάκτησης εξετάζει παραδοσιακές τεχνικές λεξικής αναζήτησης (BM25), πυκνή διανυσματική αναζήτηση και έναν υβριδικό μηχανισμό ανάκτησης, ώστε να επιτυγχάνεται η μέγιστη δυνατή κάλυψη και συνάφεια αποτελεσμάτων. Οι δυνατότητες απάντησης ερωτημάτων αξιολογούνται με βάση ζεύγη ερωτo-απαντήσεων που προέρχονται τόσο από πραγματικά όσο και από συνθετικά δεδομένα, αξιοποιώντας σύγχρονα μεγάλα γλωσσικά μοντέλα (LLMs). Η εργασία πραγματοποιεί εκτενή αξιολόγηση σε όλα τα επίπεδα αναπαράστασης του εγγράφου και για όλες τις διαφορετικές διαμορφώσεις ανάκτησης, χρησιμοποιώντας τόσο κλασικές μετρικές ανάκτησης πληροφοριών όσο και μεθόδους αυτόματης αξιολόγησης βασισμένες σε LLMs. Τα αποτελέσματα αποδεικμεύουν ότι είναι εφικτή η δημιουργία ενός αξιόπιστου, γρήγορου και ευέλικτου βοηθού, αξιοποιώντας σχετικά περιορισμένους υπολογιστικούς πόρους. Τέλος, η εργασία αναφέρει τους περιορισμούς και τις δυνητικές επεκτάσεις της προτεινόμενης προσέγγισης, με στόχο να παρέχει ένα πρότυπο για την ανάπτυξη παρόμοιων βοηθών τύπου RAG και σε άλλα ακαδημαϊκά πλαίσια.el
dc.embargo.ruleOpen access
dc.format.extentpages 108el
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/12291
dc.identifier.urihttps://doi.org/10.26219/heal.aueb.9497
dc.languageen
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectRetrieval-Augmented Generation (RAG)en
dc.subjectLarge Language Models (LLMs)en
dc.subjectInformation retrievalen
dc.subjectQuestion answeringen
dc.subjectNatural Language Processing (NLP)en
dc.subjectDocument indexingen
dc.subjectPrompt engineeringen
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΜεγάλα γλωσσικά μοντέλαel
dc.subjectΑνάκτηση πληροφοριώνel
dc.titleLeveraging retrieval-augmented generation for student support: a document-centric QA system for the AUEB informatics studies guideen
dc.title.alternativeLeveraging retrieval-augmented generation for student support: a document-centric QA system for the AUEB informatics studies guideen
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Δεν υπάρχει διαθέσιμη μικρογραφία
Ονομα:
Mitsakis_2025.pdf
Μέγεθος:
2.42 MB
Μορφότυπο:
Adobe Portable Document Format