Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Exploring multimodal large language models for medical image captioning

Εναλλακτικός τίτλος :	Διερεύνηση πολυτροπικών μεγάλων γλωσσικών μοντέλων για περιγραφή ιατρικών εικόνων

Δημιουργός :	Σαμπροβαλάκη, Μαρίνα Samprovalaki, Marina

Συντελεστής :	Androutsopoulos, Ion (Επιβλέπων καθηγητής) Pavlopoulos, Ioannis (Εξεταστής) Papaioannou, Georgios (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	89p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11812

Περίληψη :	Η αυτόματη περιγραφή εικόνων ενσωματώνει προσεγγίσεις από την Υπολογιστική Όραση (Computer Vision, CV) και την Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) για να παρέχει αυτόματα μια σύντομη περιγραφή των βασικών χαρακτηριστικών μιας συγκεκριμένης εικόνας. Στον ιατρικό τομέα, αυτή η διαδικασία είναι γνωστή ως αυτόματη διαγνωστική περιγραφή εικόνας (Diagnostic Captioning, DC) και έχει ως στόχο όχι μόνο να περιγράψει την εικόνα, αλλά και να προσφέρει μια ιατρική διάγνωση γι' αυτήν. Αυτή η διαδικασία αποσκοπεί στο να βοηθήσει τους επαγγελματίες υγείας να έχουν μια αρχική εκτίμηση της κατάστασης του ασθενούς. Στο πλαίσιο αυτής της διπλωματικής εργασίας, αναπτύχθηκαν και παρουσιάζονται μεγάλα πολυτροπικά γλωσσικά μοντέλα που αναλύουν εικόνες και δημιουργούν περιγραφές με βάση τις οδηγίες του χρήστη. Επιπλέον, αναπτύχθηκαν τεχνικές όπου δίνονται ζευγάρια εικόνας και περιγραφής ως παραδείγματα, με σκοπό το μοντέλο να μιμηθεί την συμπερι- \\φορά τους και να παράξει νέες περιγραφές για άλλες εικόνες. Τέλος, εξετάζεται πώς ένα μικρότερο γλωσσικό μοντέλο, όσον αφορά τις παραμέτρους που χρησιμοποιούνται κατά την εκπαίδευση, συνδυάζει εναλλακτικές περιγραφές της ίδιας εικόνας για να δημιουργήσει μια πιο βελτιωμένη. Image captioning involves using models that combine methods from Computer Vision (CV) and Natural Language Processing (NLP) to generate textual descriptions of images. In the biomedical field, this process is known as Diagnostic Captioning (DC), where models automatically generate diagnostic text from one or more medical images. DC not only describes the images, but also interprets them to provide a diagnosis, helping healthcare professionals gain an initial understanding of a patient's medical conditions. To achieve this, researchers have formulated DC models that can interpret images and generate descriptions based on specified instructions. This study aims to unlock new possibilities in the biomedical domain by harnessing the power of Multi-modal Large Language Models (MLLMs) through techniques like task-specific fine-tuning and few-shot learning. It also explores innovative methods to integrate alternative image captions with a language model (LM) that has fewer parameters.

Περίληψη :

Η αυτόματη περιγραφή εικόνων ενσωματώνει προσεγγίσεις από την Υπολογιστική Όραση (Computer Vision, CV) και την Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) για να παρέχει αυτόματα μια σύντομη περιγραφή των βασικών χαρακτηριστικών μιας συγκεκριμένης εικόνας. Στον ιατρικό τομέα, αυτή η διαδικασία είναι γνωστή ως αυτόματη διαγνωστική περιγραφή εικόνας (Diagnostic Captioning, DC) και έχει ως στόχο όχι μόνο να περιγράψει την εικόνα, αλλά και να προσφέρει μια ιατρική διάγνωση γι' αυτήν. Αυτή η διαδικασία αποσκοπεί στο να βοηθήσει τους επαγγελματίες υγείας να έχουν μια αρχική εκτίμηση της κατάστασης του ασθενούς. Στο πλαίσιο αυτής της διπλωματικής εργασίας, αναπτύχθηκαν και παρουσιάζονται μεγάλα πολυτροπικά γλωσσικά μοντέλα που αναλύουν εικόνες και δημιουργούν περιγραφές με βάση τις οδηγίες του χρήστη. Επιπλέον, αναπτύχθηκαν τεχνικές όπου δίνονται ζευγάρια εικόνας και περιγραφής ως παραδείγματα, με σκοπό το μοντέλο να μιμηθεί την συμπερι- \\φορά τους και να παράξει νέες περιγραφές για άλλες εικόνες. Τέλος, εξετάζεται πώς ένα μικρότερο γλωσσικό μοντέλο, όσον αφορά τις παραμέτρους που χρησιμοποιούνται κατά την εκπαίδευση, συνδυάζει εναλλακτικές περιγραφές της ίδιας εικόνας για να δημιουργήσει μια πιο βελτιωμένη.
Image captioning involves using models that combine methods from Computer Vision (CV) and Natural Language Processing (NLP) to generate textual descriptions of images. In the biomedical field, this process is known as Diagnostic Captioning (DC), where models automatically generate diagnostic text from one or more medical images. DC not only describes the images, but also interprets them to provide a diagnosis, helping healthcare professionals gain an initial understanding of a patient's medical conditions. To achieve this, researchers have formulated DC models that can interpret images and generate descriptions based on specified instructions. This study aims to unlock new possibilities in the biomedical domain by harnessing the power of Multi-modal Large Language Models (MLLMs) through techniques like task-specific fine-tuning and few-shot learning. It also explores innovative methods to integrate alternative image captions with a language model (LM) that has fewer parameters.

Λέξη κλειδί :	Πολυτροπικά γλωσσικά μοντέλα Μεγάλα γλωσσικά μοντέλα Διαγνωστική περιγραφή Τεχνητή νοημοσύνη στην ιατρική Επεξεργασία φυσικής γλώσσας Multimodal language models Large language models Diagnostic captioning Artificial intelligence in medicine Natural Language Processing (NLP)

Διαθέσιμο από :	2024-12-23 11:32:19

Ημερομηνία έκδοσης :	20-12-2024

Ημερομηνία κατάθεσης :	2024-12-23 11:32:19

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Samprovalaki_2024.pdf

Τύπος: application/pdf

Είσοδος