Abstract : | Η αυτόματη περιγραφή εικόνων ενσωματώνει προσεγγίσεις από την Υπολογιστική Όραση (Computer Vision, CV) και την Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) για να παρέχει αυτόματα μια σύντομη περιγραφή των βασικών χαρακτηριστικών μιας συγκεκριμένης εικόνας. Στον ιατρικό τομέα, αυτή η διαδικασία είναι γνωστή ως αυτόματη διαγνωστική περιγραφή εικόνας (Diagnostic Captioning, DC) και έχει ως στόχο όχι μόνο να περιγράψει την εικόνα, αλλά και να προσφέρει μια ιατρική διάγνωση γι' αυτήν. Αυτή η διαδικασία αποσκοπεί στο να βοηθήσει τους επαγγελματίες υγείας να έχουν μια αρχική εκτίμηση της κατάστασης του ασθενούς. Στο πλαίσιο αυτής της διπλωματικής εργασίας, αναπτύχθηκαν και παρουσιάζονται μεγάλα πολυτροπικά γλωσσικά μοντέλα που αναλύουν εικόνες και δημιουργούν περιγραφές με βάση τις οδηγίες του χρήστη. Επιπλέον, αναπτύχθηκαν τεχνικές όπου δίνονται ζευγάρια εικόνας και περιγραφής ως παραδείγματα, με σκοπό το μοντέλο να μιμηθεί την συμπερι- \\φορά τους και να παράξει νέες περιγραφές για άλλες εικόνες. Τέλος, εξετάζεται πώς ένα μικρότερο γλωσσικό μοντέλο, όσον αφορά τις παραμέτρους που χρησιμοποιούνται κατά την εκπαίδευση, συνδυάζει εναλλακτικές περιγραφές της ίδιας εικόνας για να δημιουργήσει μια πιο βελτιωμένη. Image captioning involves using models that combine methods from Computer Vision (CV) and Natural Language Processing (NLP) to generate textual descriptions of images. In the biomedical field, this process is known as Diagnostic Captioning (DC), where models automatically generate diagnostic text from one or more medical images. DC not only describes the images, but also interprets them to provide a diagnosis, helping healthcare professionals gain an initial understanding of a patient's medical conditions. To achieve this, researchers have formulated DC models that can interpret images and generate descriptions based on specified instructions. This study aims to unlock new possibilities in the biomedical domain by harnessing the power of Multi-modal Large Language Models (MLLMs) through techniques like task-specific fine-tuning and few-shot learning. It also explores innovative methods to integrate alternative image captions with a language model (LM) that has fewer parameters.
|
---|