Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Exploring multimodal large language models for medical image captioning

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsen
dc.contributor.opponentPavlopoulos, Ioannisen
dc.contributor.opponentPapaioannou, Georgiosen
dc.contributor.thesisadvisorAndroutsopoulos, Ionen
dc.creatorΣαμπροβαλάκη, Μαρίναel
dc.creatorSamprovalaki, Marinaen
dc.date.accessioned2025-03-26T19:13:24Z
dc.date.available2025-03-26T19:13:24Z
dc.date.issued20-12-2024
dc.date.submitted2024-12-23 11:32:19
dc.description.abstractΗ αυτόματη περιγραφή εικόνων ενσωματώνει προσεγγίσεις από την Υπολογιστική Όραση (Computer Vision, CV) και την Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) για να παρέχει αυτόματα μια σύντομη περιγραφή των βασικών χαρακτηριστικών μιας συγκεκριμένης εικόνας. Στον ιατρικό τομέα, αυτή η διαδικασία είναι γνωστή ως αυτόματη διαγνωστική περιγραφή εικόνας (Diagnostic Captioning, DC) και έχει ως στόχο όχι μόνο να περιγράψει την εικόνα, αλλά και να προσφέρει μια ιατρική διάγνωση γι' αυτήν. Αυτή η διαδικασία αποσκοπεί στο να βοηθήσει τους επαγγελματίες υγείας να έχουν μια αρχική εκτίμηση της κατάστασης του ασθενούς. Στο πλαίσιο αυτής της διπλωματικής εργασίας, αναπτύχθηκαν και παρουσιάζονται μεγάλα πολυτροπικά γλωσσικά μοντέλα που αναλύουν εικόνες και δημιουργούν περιγραφές με βάση τις οδηγίες του χρήστη. Επιπλέον, αναπτύχθηκαν τεχνικές όπου δίνονται ζευγάρια εικόνας και περιγραφής ως παραδείγματα, με σκοπό το μοντέλο να μιμηθεί την συμπερι- \\φορά τους και να παράξει νέες περιγραφές για άλλες εικόνες. Τέλος, εξετάζεται πώς ένα μικρότερο γλωσσικό μοντέλο, όσον αφορά τις παραμέτρους που χρησιμοποιούνται κατά την εκπαίδευση, συνδυάζει εναλλακτικές περιγραφές της ίδιας εικόνας για να δημιουργήσει μια πιο βελτιωμένη.el
dc.description.abstractImage captioning involves using models that combine methods from Computer Vision (CV) and Natural Language Processing (NLP) to generate textual descriptions of images. In the biomedical field, this process is known as Diagnostic Captioning (DC), where models automatically generate diagnostic text from one or more medical images. DC not only describes the images, but also interprets them to provide a diagnosis, helping healthcare professionals gain an initial understanding of a patient's medical conditions. To achieve this, researchers have formulated DC models that can interpret images and generate descriptions based on specified instructions. This study aims to unlock new possibilities in the biomedical domain by harnessing the power of Multi-modal Large Language Models (MLLMs) through techniques like task-specific fine-tuning and few-shot learning. It also explores innovative methods to integrate alternative image captions with a language model (LM) that has fewer parameters.en
dc.embargo.expire2024-12-23 11:32:19
dc.embargo.ruleOpen access
dc.format.extent89p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11812
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/2145
dc.languageen
dc.rightsCC BY: Attribution alone 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectΠολυτροπικά γλωσσικά μοντέλαel
dc.subjectΜεγάλα γλωσσικά μοντέλαel
dc.subjectΔιαγνωστική περιγραφήel
dc.subjectΤεχνητή νοημοσύνη στην ιατρικήel
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectMultimodal language modelsen
dc.subjectLarge language modelsen
dc.subjectDiagnostic captioningen
dc.subjectArtificial intelligence in medicineen
dc.subjectNatural Language Processing (NLP)en
dc.titleExploring multimodal large language models for medical image captioningen
dc.title.alternativeΔιερεύνηση πολυτροπικών μεγάλων γλωσσικών μοντέλων για περιγραφή ιατρικών εικόνωνel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Samprovalaki_2024.pdf
Μέγεθος:
8.4 MB
Μορφότυπο:
Adobe Portable Document Format