Abstract : | The field of Machine Learning owes much for its success to the ability of its algorithms to automatically discover patterns in data. However, these algorithms are still written by hand, despite them being similar in their core element, i.e. the usage of past gradients as a means of locally updating their search for optima. This commonality naturally leads to the debate of whether one could learn those algorithms, instead of designing them manually, i.e., can we learn the optimal parameters of an optimization algorithm that we would like to use for a machine learning problem? Should these “learned” algorithms perform better than their manually-designed counterparts, it could assist in lessening the time spent for hyperparameter tuning among ML practitioners and researchers alike, while also clearing the way for more generalized approaches in cases where an optimizer is needed. However, although recent approaches in the field of optimizer learning or, as it is commonly dubbed, in the field of meta-learning have resulted in learned optimizers that outperform their standard variants in tasks they have been trained on, they have showcased limited examples of their generalization capabilities, i.e. their ability to perform well in tasks outside of their training regime. The goal of the thesis is to explore the generalization capabilities of this form of meta-learning that usually comes in the form of a recurrent neural network optimizer, thus attempting to extend previous studies on learning optimization algorithms.The thesis also involves an implementation of the relevant experiments in PyTorch, a recently introduced deep learning framework that is widely popular throughout the research community and the code will be open-sourced in order to facilitate further contributions towards answering this research question. Το πεδίο της Μηχανικής Μάθησης χρωστάει μεγάλο μέρος της επιτυχίας του στην ικανότητα των αλγορίθμων του στο να ανιχνεύουν αυτόματα μοτίβα σε δεδομένα. Παρ'όλα αυτά οι αλγόριθμοι αυτοί ακόμα γράφονται χειροκίνητα, μολονότι εμφανίζουν ομοιότητες ως προς το κεντρικό στοιχείο τους, το οποίο είναι η χρήση προηγούμενων κλίσεων συναρτήσεων ως μέσο για την τοπική επικαιροποίηση της αναζήτησής τους για ακρότατα. Το κοινό στοιχείο αυτό οδηγεί φυσικά στην έγερση του ερωτήματος σχετικού με το αν θα μπορούσαμε να μάθουμε τους αλγορίθμους αυτους αντί να τους σχεδιάζουμε χειροκίνητα, δηλαδή αν είναι εφικτό να μάθουμε τις βέλτιστες παραμέτρους ενός αλγόριθμου βελτιστοποίησης ώστε να τον χρησιμοποιήσουμε σε ένα πρόβλημα μηχανικής μάθησης. Σε περίπτωση που αυτοί οι "εκμαθημένοι" αλγόριθμοι αποδίδουν καλύτερα από τους χειροκίνητα σχεδιασμένους, κάτι τέτοιο θα σήμαινε πως θα μπορούσαν να βοηθήσουν στη μείωση του χρόνου που απαιτείται για την εύρεση ιδανικών υπερπαραμέτρων από όσους εφαρμόζουν τεχνικές Μηχανικής Μάθησης αλλά και τους ερευνητές και παράλληλα θα ξεκαθάριζε το τοπίο ώστε να γίνεται χρήση πιο γενικευμένων μεθόδων σε περιπτώσεις όπου είναι αναγκαία η εύρεση ενός βελτιστοποιητή. Παρ’ όλα αυτά, αν και οι πρόσφατες προσεγγίσεις στο πεδίο της εκμάθησης βελτιστοποιητων ή, όπως αλλιώς αναφέρεται στην επιστημονική βιβλιογραφία, στο πεδίο της μετα-μάθησης έχουν οδηγήσει σε “εκμαθημένους” βελτιστοποιητές που ξεπερνάνε σε απόδοση τους καθιερωμένους αντιπάλους τους σε καθήκοντα στα οποία έχουν εκπαιδευτεί, έχουν επιδείξει περιορισμένα παραδείγματα όσον αφορά τις δυνατότητες γενίκευσής τους, δηλαδή την ικανότητά τους να αποδώσουν καλά και σε καθήκοντα που βρίσκονται εκτός των πλαισίων εκπαίδευσής τους. Ο στόχος αυτής της διπλωματικής εργασίας είναι να διερευνήσει τις ικανότητες γενίκευσης αυτής της μορφής μετα-μάθησης η οποία συνδέεται με βελτιστοποιητές υπό τη μορφή βελτιστοποιητών-ανατροφοδοτούμενων νευρωνικών δικτύων, επιχειρώντας έτσι να επεκτείνει προηγούμενες μελέτες στην εκμάθηση αλγορίθμων βελτιστοποίησης.
|
---|