Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Exploring uni-modal, multi-modal and few-shot deep learning methods for diagnostic captioning

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsen
dc.contributor.opponentPapaioannou, Georgiosen
dc.contributor.opponentKotidis, Υannisen
dc.contributor.thesisadvisorAndroutsopoulos, Ionen
dc.creatorΚαλιόσης, Παναγιώτηςel
dc.creatorKaliosis, Panagiotisen
dc.date.accessioned2025-03-26T19:09:35Z
dc.date.available2025-03-26T19:09:35Z
dc.date.issued30-11-2023
dc.date.submitted2024-03-02 13:07:36
dc.description.abstractΗ αυτόματη περιγραφή εικόνων είναι ένας τομέας που βρίσκεται στην τομή της Υπολογιστικής Όρασης (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP). Αφορά την αυτόματη παραγωγή ενός σύντομου κειμενου που περιγράφει τα βασικά χαρακτηριστικά μιας δεδομένης εικόνας. Σε συνδυασμό με την ραγδαία πρόοδο που έχει αναπτυχθεί στον τομέα της βαθιάς μάθησης, αυξημένη προσοχή έχουν λάβει μελέτες και ερευνητικά έργα που σχετίζονται με μοντέλα αυτόματης περιγραφής εικόνων στον τομέα της βιοϊατρικης. Η παρούσα διπλωματική εργασία επικεντρώνεται στον τομέα της αυτόματης περιγραφής ιατρικών εικόνων, που αναφέρεται επίσης ως παραγωγή διαγνωστικής περιγραφής. Ο στόχος των μοντέλων διαγνωστικής περιγραφής είναι η παραγωγή μίας διαγνωστικης αναφοράς που συνοψίζει την ιατρική κατάσταση ενός ασθενούς με βάση μία ή περισσότερες ακτινολογικές εικόνες. Ο κύριος στόχος είναι να βοηθήσουν το ιατρικό προσωπικό παρέχοντας μια αρχική εκτίμηση της κατάστασης του ασθενούς. Προς αυτή την κατεύθυνση, δημιουργήθηκαν και παρουσιάζονται στα πλαίσια αυτής της διπλωματικής εργασίας, μονοτροπικά και πολυτροπικά μοντέλα αυτόματης περιγραφής ιατρικών εικόνων με χρήση τεχνικών βαθιάς μάθησης, καθώς και μοντέλα που βασίζονται σε λίγα μόνο δεδομένα εκπαίδευσης. Εξετάστηκε ένα ευρύ φάσμα μεθόδων που καλύπτουν συμβατικές τεχνικές μετατροπής εικόνας σε κείμενο, πιο προηγμένες αρχιτεκτονικές βασισμένες σε μετασχηματιστές (Transformers), σύγχρονα συστήματα τελευταίας τεχνολογίας, καθώς και ένας νέος, εφαρμοσμένος αλγόριθμος καθοδηγούμενης αποκωδικοποίησης.el
dc.description.abstractImage Captioning is a field that lies at the intersection of Computer Vision (CV) and Natural Language Processing (NLP). It concerns the automatic generation of a brief textual description that outlines the key aspects of a given image. Due to recent advancements in the deep learning domain, much attention is attracted on studies associated with image captioning models applied in the biomedical domain. This thesis addresses the task of medical image captioning, also referred to as Diagnostic Captioning (DC). The objective of DC models is to generate draft diagnostic texts that report the medical condition of a patient based on one or more radiology images. The ultimate goal is to assist clinicians by providing an initial estimation of the patient's condition. Towards this goal, unimodal, multimodal, as well as few-shot diagnostic captioning models are presented. A wide range of image captioning methods spanning conventional image-to-text techniques, more advanced Transformer-based architectures, state-of-the-art systems, as well as a novel, task-specific guided decoding algorithm have been explored.en
dc.embargo.expire2024-03-02 13:07:36
dc.embargo.ruleOpen access
dc.format.extent109p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11027
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/1283
dc.languageen
dc.rightsCC BY: Attribution alone 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectΒαθιά μάθησηel
dc.subjectΔιαγνωστική περιγραφήel
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΥπολογιστική όρασηel
dc.subjectDeep learningen
dc.subjectDiagnostic captioningen
dc.subjectNatural Language Processing (NLP)en
dc.subjectComputer visionen
dc.titleExploring uni-modal, multi-modal and few-shot deep learning methods for diagnostic captioningen
dc.title.alternativeΔιερεύνηση μονοτροπικών, πολυτροπικών και σύντομης εκπαίδευσης μεθόδων βαθιάς μάθησης για την αυτόματη περιγραφή ιατρικών εικόνωνel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Kaliosis_2023.pdf
Μέγεθος:
5.86 MB
Μορφότυπο:
Adobe Portable Document Format