Συλλογές
Τίτλος Continual learning in encoder-decoder computer vision architectures
Εναλλακτικός τίτλος Συνεχής μάθηση σε αρχιτεκτονικές κωδικοποιητή-αποκωδικοποιητή για υπολογιστική όραση
Δημιουργός Βεχλίδης, Κωνσταντίνος, Vechlidis, Konstantinos
Συντελεστής Athens University of Economics and Business, Department of Informatics
Pavlopoulos, Ioannis
Toumpis, Stavros
Koutsopoulos, Iordanis
Τύπος Text
Φυσική περιγραφή 78p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11754
Περίληψη Continual Learning allows models to adapt to new data while retaining previously learned knowledge and thus addresses the problem of catastrophic forgetting. This thesis investigates the application of Continual Learning in encoder-decoder architectures, focusing on computer vision problems such as image captioning. Encoder-decoder architectures are critical in problems that require the transformation of structured input data into another structure or modality, such as generating text from an image. Such problems often involve evolving data distributions, making Continual Learning in these architectures essential to maintain performance and adaptability. We adopt the scenario of class-incremental learning, where new classes are introduced incrementally, and the model must learn to classify new categories without forgetting previous ones. For instance, in an image labeling problem, a model initially trained to label categories like "cat" and "dog" might later need to incrementally learn to label new categories, such as "bird" or "fish", without losing its ability to correctly identify "cat" and "dog" in future inputs. To address this scenario, we employ the Gradient Episodic Memory (GEM) algorithm, which is a well-known replay and optimization-based technique. GEM mitigates catastrophic forgetting by storing past task data in memory, and by constraining gradients during new learning phases in order to avoid interference with previously learned knowledge. In this work, we choose GEM due to its ability to handle both replay and optimization in a unified framework. GEM ensures that previously learned tasks are not forgotten while the model is exposed to new ones, especially critical in class-incremental learning for image captioning, where each task introduces new vocabulary tokens (classes). Furthermore, we propose a novel masked version of GEM to address the continuous growth of the model's parameters due to incremental vocabulary updates. To the best of our knowledge, this is the first attempt to apply GEM in the context of image captioning. Through experimentation, we demonstrate that GEM outperforms other state-of-the-art Continual Learning techniques that have been applied to image captioning, like Feature Distillation (FD) and Learning without Forgetting (LwF).
Η συνεχής μάθηση (Continual Learning) επιτρέπει στα μοντέλα να προσαρμόζονται σε νέα δεδομένα, διατηρώντας παράλληλα τη γνώση που είχαν μάθει προηγουμένως, αντιμετωπίζοντας έτσι το πρόβλημα της καταστροφικής λήθης (catastrophic forgetting). Η παρούσα διατριβή διερευνά την εφαρμογή της συνεχούς μάθησης σε αρχιτεκτονικές κωδικοποιητή-αποκωδικοποιητή, εστιάζοντας σε προβλήματα υπολογιστικής όρασης, όπως η δημιουργία λεζάντας εικόνας (image captioning). Οι αρχιτεκτονικές κωδικοποιητή-αποκωδικοποιητή επιλέγονται κυρίως σε προβλήματα που απαιτούν τη μετατροπή δομημένων δεδομένων εισόδου σε άλλη δομή ή μέσο, όπως η παραγωγή κειμένου από μια εικόνα. Τέτοια προβλήματα συχνά περιλαμβάνουν εξελισσόμενες κατανομές δεδομένων, καθιστώντας τη συνεχή μάθηση σε αυτές τις αρχιτεκτονικές απαραίτητη για τη διατήρηση της απόδοσης και της προσαρμοστικότητας. Υιοθετούμε το σενάριο της μάθησης μέσω σταδιακής επαύξησης κλάσεων (class-incremental learning), όπου νέες κλάσεις εισάγονται σταδιακά και το μοντέλο πρέπει να μάθει να ταξινομεί τις νέες κλάσεις χωρίς να ξεχνά τις προηγούμενες. Για παράδειγμα, σε ένα πρόβλημα ταξινόμησης εικόνων, ένα μοντέλο που έχει αρχικά εκπαιδευτεί να ταξινομεί κατηγορίες όπως «γάτα» και «σκύλος» μπορεί αργότερα να χρειαστεί να μάθει σταδιακά να ταξινομεί νέες κατηγορίες, όπως «πουλί» ή «ψάρι», χωρίς να χάσει την ικανότητά του να αναγνωρίζει σωστά τη «γάτα» και τον «σκύλο» σε μελλοντικές εισόδους. Για να αντιμετωπίσουμε αυτό το σενάριο, χρησιμοποιούμε τον αλγόριθμο Gradient Episodic Memory (GEM), μια διάσημη τεχνική που βασίζεται στην επανάληψη και τη βελτιστοποίηση. Ο GEM μετριάζει την καταστροφική λήθη, αποθηκεύοντας δεδομένα προηγούμενων εργασιών στη μνήμη και περιορίζοντας τις κλίσεις των παραγώγων κατά τη διάρκεια νέων φάσεων μάθησης, ώστε να αποφεύγονται παρεμβολές με τις γνώσεις που είχαν αποκτηθεί προηγουμένως. Σε αυτή την εργασία, επιλέγουμε τον GEM λόγω της ικανότητάς του να χειρίζεται τόσο την επανάληψη όσο και τη βελτιστοποίηση σε ένα ενοποιημένο πλαίσιο. Ο GEM εξασφαλίζει ότι οι εργασίες που έχουν διδαχθεί προηγουμένως δεν ξεχνιούνται καθώς το μοντέλο εκτίθεται σε νέες εργασίες, γεγονός ιδιαίτερα κρίσιμο στη μάθηση μέσω σταδιακής επαύξησης κλάσεων για τη δημιουργία λεζάντας εικόνας, όπου κάθε νέα εργασία εισάγει νέα λεξιλογικά σημεία (κλάσεις). Επιπλέον, προτείνουμε μια νέα έκδοση του GEM, που χρησιμοποιεί μάσκα, για να αντιμετωπίσουμε τη συνεχή αύξηση των παραμέτρων του μοντέλου λόγω των σταδιακών ενημερώσεων του λεξιλογίου. Εξ' όσων γνωρίζουμε, αυτή είναι η πρώτη προσπάθεια εφαρμογής του GEM στο πλαίσιο της δημιουργίας λεζάντας εικόνας. Μέσω πειραμάτων, αποδεικνύουμε ότι ο GEM υπερτερεί έναντι άλλων σύγχρονων τεχνικών συνεχούς μάθησης που έχουν εφαρμοστεί στη δημιουργία λεζάντας εικόνας, όπως το Feature Distillation (FD) και το Learning without Forgetting (LwF).
Λέξη κλειδί Κωδικοποιητής-αποκωδικοποιητής
Υπολογιστική όραση
Δημιουργία λεζάντας εικόνας
Συνεχής μάθηση
Τεχνητή νοημοσύνη
Continual learning
Computer vision
Image captioning
Encoder-decoder
Artificial Intelligence (AI)
Διαθέσιμο από 2024-12-04 14:13:28
Ημερομηνία έκδοσης 29-11-2024
Ημερομηνία κατάθεσης 2024-12-04 14:13:28
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/