Περίληψη : | Image captioning has been researched a lot recently, but not much of that research has been applied to the biomedical domain. Diagnostic Captioning, the process of predicting diagnoses for medical images, can be very helpful for medical experts, since writing a diagnosis can be time-consuming and there is a lot of demand for it. In this master thesis the behavior of three types of models for diagnostic captioning is studied: image unaware unaware, retrieval, and image encoders combined with language models. The thesis also contains important findings on the difference that the preprocessing of the test captions can make in evaluation scores. Finally, this thesis concerns the participation of AUEB's NLP Group in the 2021 ImageCLEFmedical Caption competition, where the main driver was the author. The team earned the 2nd place among 8 teams with a retrieval based model. Το πεδίο της παραγωγής περιγραφών εικόνων (Image Captioning) έχει ερευνηθεί αρκετά τελευταία, αλλά δεν έχει εφαρμοστεί πολλή από αυτήν την έρευνα πάνω στον βϊοιατρικό τομέα. Η παραγωγή διαγνωστικών περιγραφών εικόνων (Diagnostic Captioning), η διαδικασία πρόβλεψης διαγνώσεων για ιατρικές εικόνες, μπορεί να βοηθήσει αρκετά τους γιατρούς που κάνουν διαγνώσεις, καθώς η συγγραφή διαγνώσεων απαιτεί μερικές φορές αρκετή ώρα, και υπάρχει μεγάλη ανάγκη για υποστήριξη των γιατρών. Σε αυτήν την μεταπτυχιακή εργασία παρατηρούμε τη συμπεριφορά τριών τύπων μοντέλων για παραγωγή διαγνωστικών περιγραφών εικόνων: μοντέλα χωρίς γνώση της εικόνας, μοντέλα ανάκτησης, και κωδικοποιητές εικόνας σε συνδυασμό με γλωσσικά μοντέλα. Κάνουμε επίσης σημαντικές παρατηρήσεις σχετικά με τη διαφορά που μπορεί να κάνει η προεπεξεργασία των κειμένων στις βαθμολογίες. Συμμετείχαμε επίσης στον διαγωνισμό ImageCLEFmedical Caption του 2021, όπου πήραμε τη 2η θέση μεταξύ 8 ομάδων με μοντέλο βασισμένο στην ανάκτηση.
|
---|