AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Exploring uni-modal, multi-modal and few-shot deep learning methods for diagnostic captioning

Alternative Title :	Διερεύνηση μονοτροπικών, πολυτροπικών και σύντομης εκπαίδευσης μεθόδων βαθιάς μάθησης για την αυτόματη περιγραφή ιατρικών εικόνων

Creator :	Καλιόσης, Παναγιώτης Kaliosis, Panagiotis

Contributor :	Androutsopoulos, Ion (Επιβλέπων καθηγητής) Papaioannou, Georgios (Εξεταστής) Kotidis, Υannis (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Type :	Text

Extent :	109p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11027

Abstract :	Η αυτόματη περιγραφή εικόνων είναι ένας τομέας που βρίσκεται στην τομή της Υπολογιστικής Όρασης (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP). Αφορά την αυτόματη παραγωγή ενός σύντομου κειμενου που περιγράφει τα βασικά χαρακτηριστικά μιας δεδομένης εικόνας. Σε συνδυασμό με την ραγδαία πρόοδο που έχει αναπτυχθεί στον τομέα της βαθιάς μάθησης, αυξημένη προσοχή έχουν λάβει μελέτες και ερευνητικά έργα που σχετίζονται με μοντέλα αυτόματης περιγραφής εικόνων στον τομέα της βιοϊατρικης. Η παρούσα διπλωματική εργασία επικεντρώνεται στον τομέα της αυτόματης περιγραφής ιατρικών εικόνων, που αναφέρεται επίσης ως παραγωγή διαγνωστικής περιγραφής. Ο στόχος των μοντέλων διαγνωστικής περιγραφής είναι η παραγωγή μίας διαγνωστικης αναφοράς που συνοψίζει την ιατρική κατάσταση ενός ασθενούς με βάση μία ή περισσότερες ακτινολογικές εικόνες. Ο κύριος στόχος είναι να βοηθήσουν το ιατρικό προσωπικό παρέχοντας μια αρχική εκτίμηση της κατάστασης του ασθενούς. Προς αυτή την κατεύθυνση, δημιουργήθηκαν και παρουσιάζονται στα πλαίσια αυτής της διπλωματικής εργασίας, μονοτροπικά και πολυτροπικά μοντέλα αυτόματης περιγραφής ιατρικών εικόνων με χρήση τεχνικών βαθιάς μάθησης, καθώς και μοντέλα που βασίζονται σε λίγα μόνο δεδομένα εκπαίδευσης. Εξετάστηκε ένα ευρύ φάσμα μεθόδων που καλύπτουν συμβατικές τεχνικές μετατροπής εικόνας σε κείμενο, πιο προηγμένες αρχιτεκτονικές βασισμένες σε μετασχηματιστές (Transformers), σύγχρονα συστήματα τελευταίας τεχνολογίας, καθώς και ένας νέος, εφαρμοσμένος αλγόριθμος καθοδηγούμενης αποκωδικοποίησης. Image Captioning is a field that lies at the intersection of Computer Vision (CV) and Natural Language Processing (NLP). It concerns the automatic generation of a brief textual description that outlines the key aspects of a given image. Due to recent advancements in the deep learning domain, much attention is attracted on studies associated with image captioning models applied in the biomedical domain. This thesis addresses the task of medical image captioning, also referred to as Diagnostic Captioning (DC). The objective of DC models is to generate draft diagnostic texts that report the medical condition of a patient based on one or more radiology images. The ultimate goal is to assist clinicians by providing an initial estimation of the patient's condition. Towards this goal, unimodal, multimodal, as well as few-shot diagnostic captioning models are presented. A wide range of image captioning methods spanning conventional image-to-text techniques, more advanced Transformer-based architectures, state-of-the-art systems, as well as a novel, task-specific guided decoding algorithm have been explored.

Abstract :

Η αυτόματη περιγραφή εικόνων είναι ένας τομέας που βρίσκεται στην τομή της Υπολογιστικής Όρασης (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP). Αφορά την αυτόματη παραγωγή ενός σύντομου κειμενου που περιγράφει τα βασικά χαρακτηριστικά μιας δεδομένης εικόνας. Σε συνδυασμό με την ραγδαία πρόοδο που έχει αναπτυχθεί στον τομέα της βαθιάς μάθησης, αυξημένη προσοχή έχουν λάβει μελέτες και ερευνητικά έργα που σχετίζονται με μοντέλα αυτόματης περιγραφής εικόνων στον τομέα της βιοϊατρικης. Η παρούσα διπλωματική εργασία επικεντρώνεται στον τομέα της αυτόματης περιγραφής ιατρικών εικόνων, που αναφέρεται επίσης ως παραγωγή διαγνωστικής περιγραφής. Ο στόχος των μοντέλων διαγνωστικής περιγραφής είναι η παραγωγή μίας διαγνωστικης αναφοράς που συνοψίζει την ιατρική κατάσταση ενός ασθενούς με βάση μία ή περισσότερες ακτινολογικές εικόνες. Ο κύριος στόχος είναι να βοηθήσουν το ιατρικό προσωπικό παρέχοντας μια αρχική εκτίμηση της κατάστασης του ασθενούς. Προς αυτή την κατεύθυνση, δημιουργήθηκαν και παρουσιάζονται στα πλαίσια αυτής της διπλωματικής εργασίας, μονοτροπικά και πολυτροπικά μοντέλα αυτόματης περιγραφής ιατρικών εικόνων με χρήση τεχνικών βαθιάς μάθησης, καθώς και μοντέλα που βασίζονται σε λίγα μόνο δεδομένα εκπαίδευσης. Εξετάστηκε ένα ευρύ φάσμα μεθόδων που καλύπτουν συμβατικές τεχνικές μετατροπής εικόνας σε κείμενο, πιο προηγμένες αρχιτεκτονικές βασισμένες σε μετασχηματιστές (Transformers), σύγχρονα συστήματα τελευταίας τεχνολογίας, καθώς και ένας νέος, εφαρμοσμένος αλγόριθμος καθοδηγούμενης αποκωδικοποίησης.
Image Captioning is a field that lies at the intersection of Computer Vision (CV) and Natural Language Processing (NLP). It concerns the automatic generation of a brief textual description that outlines the key aspects of a given image. Due to recent advancements in the deep learning domain, much attention is attracted on studies associated with image captioning models applied in the biomedical domain. This thesis addresses the task of medical image captioning, also referred to as Diagnostic Captioning (DC). The objective of DC models is to generate draft diagnostic texts that report the medical condition of a patient based on one or more radiology images. The ultimate goal is to assist clinicians by providing an initial estimation of the patient's condition. Towards this goal, unimodal, multimodal, as well as few-shot diagnostic captioning models are presented. A wide range of image captioning methods spanning conventional image-to-text techniques, more advanced Transformer-based architectures, state-of-the-art systems, as well as a novel, task-specific guided decoding algorithm have been explored.

Subject :	Βαθιά μάθηση Διαγνωστική περιγραφή Επεξεργασία φυσικής γλώσσας Υπολογιστική όραση Deep learning Diagnostic captioning Natural Language Processing (NLP) Computer vision

Date Available :	2024-03-02 13:07:36

Date Issued :	30-11-2023

Date Submitted :	2024-03-02 13:07:36

Access Rights :	Free access

Licence :

File: Kaliosis_2023.pdf

Type: application/pdf

Login