Prompt caching techniques for optimizing large language models

Λύσσας, Χρήστος; Lyssas, Christos

Prompt caching techniques for optimizing large language models

Αρχεία

Lyssas_2025.pdf (1.56 MB)

Ημερομηνία

2025-07-15

Συγγραφείς

Λύσσας, Χρήστος

Lyssas, Christos

Επιβλέποντα

Papastefanatos, George

Περίληψη

Αυτή η διπλωματική εργασία διερευνά τις τεχνικές προσωρινής αποθήκευσης προτροπών (prompt caching) ως μέθοδο για τη βελτιστοποίηση μεγάλων γλωσσικών μοντέλων (LLMs), τα οποία έχουν γίνει όλο και πιο διαδεδομένα σε εργασίες επεξεργασίας φυσικής γλώσσας. Παρά τις εντυπωσιακές τους δυνατότητες, τα LLMs συχνά αντιμετωπίζουν προκλήσεις που σχετίζονται με την υπολογιστική αποδοτικότητα και την καθυστέρηση απόκρισης, ιδιαίτερα σε εφαρμογές πραγματικού χρόνου. Η παρούσα έρευνα προτείνει ένα πλαίσιο για την υλοποίηση της προσωρινής αποθήκευσης προτροπών, το οποίο περιλαμβάνει την αποθήκευση προηγούμενων προτροπών και των αντίστοιχων εξόδων τους, με στόχο την ελαχιστοποίηση περιττών υπολογισμών και τη βελτίωση του χρόνου απόκρισης. Διενεργώ μια εκτενή βιβλιογραφική ανασκόπηση για να τοποθετήσω τη δουλειά μου στο ευρύτερο πλαίσιο της υπάρχουσας έρευνας, επισημαίνοντας σχετικές μελέτες που αφορούν τεχνικές βελτιστοποίησης για LLMs. Τα ευρήματά μου αποκαλύπτουν ότι η προσωρινή αποθήκευση προτροπών μπορεί να ενισχύσει σημαντικά τόσο την αποδοτικότητα όσο και τη χρηστικότητα των LLMs, ανοίγοντας τον δρόμο για ευρύτερη εφαρμογή τους. Η εργασία αυτή συμβάλλει στον επιστημονικό τομέα παρέχοντας μια λεπτομερή ανάλυση των στρατηγικών προσωρινής αποθήκευσης προτροπών και των επιπτώσεών τους στην απόδοση των LLMs, μαζί με μια συζήτηση άλλων τεχνικών βελτιστοποίησης που μπορούν να συμπληρώσουν την προσέγγιση αυτή.

This thesis investigates prompt caching techniques as a method for optimizing large language models (LLMs), which have become increasingly prevalent in natural language processing tasks. Despite their impressive capabilities, LLMs often encounter challenges related to computational efficiency and response latency, particularly in real-time applications. This research proposes a framework for implementing prompt caching, which involves storing previously generated prompts and their outputs to minimize redundant computations and improve response times. I conduct a comprehensive literature review to contextualize my work within the existing body of research, highlighting relevant studies that address optimization techniques for LLMs. My findings reveal that prompt caching can significantly enhance both the efficiency and accessibility of LLMs, paving the way for their broader application. This thesis contributes to the field by providing a detailed analysis of prompt caching strategies and their implications for LLM performance, alongside a discussion of other optimization techniques that can complement this approach.