Πλοήγηση ανά Συγγραφέα "Gkouti, Maria-Nefeli"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 1 από 1
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Exploring the effects of Stochastic Gradient Descent variants on Transformer models for Natural Language Processing tasks(2022-12-23) Γκούτη, Μαρία-Νεφέλη; Gkouti, Maria-Nefeli; Athens University of Economics and Business, Department of Informatics; Markakis, Evangelos; Androutsopoulos, Ion; Toumpis, Stavros; Malakasiotis, ProdromosΟι περισσότεροι αλγόριθμοι στη Βαθιά μάθηση εμπεριέχουν τεχνικές βελτιστοποίησης. Με τον όρο βελτιστοποίηση εννοούμε την ελαχιστοποίηση μιας συνάρτησης. Η συνάρτη- ση αυτή ονομάζεται αντικειμενική συνάρτηση, και στην περίπτωση της Βαθιάς Μάθησης πολλές φορές καλείται συνάρτηση κόστους/σφάλματος. Ένας τέτοιος αλγόριθμος βελτι- στοποίησης βρίσκει τις τιμές των παραμέτρων (τα βάρη του νευρωνικού δικτύου) που ελαχιστοποιούν το σφάλμα του μοντέλου.Τα τελευταία χρόνια έχουν προταθεί μια πληθώρα τέτοιων αλγορίθμων, με πιο ευρέως διαδεδομένο τον Adam (Adaptive Moment Optimization algorithm). Ωστόσο, η μέχρι τώρα βιβλιογραφία απαριθμεί κάποιες εκατοντάδες τέτοιων μεθόδων, με τις περισσότερες να αποτελούν παραλλαγές του αλγορίθμου Adam. Το ερώτημα αν είναι καθοριστική στην απόδοση του μοντέλου, η επιλογή του αλγορίθμου βελτιστοποίησης είναι ανοιχτό. Εμπειρικά, φαίνεται ότι η καλύτερη επιλογή εξαρτάται από το πρόβλημα που καλείται να λύσει το νευρωνικό δίκτυο. Επιπλέον, τέτοιοι αλγόριθμοι περιέχουν αρκετές υπερπαραμέτρους, όπως είναι ο ρυθμός μάθησης (learning rate), στις οποίες αν εκχωρηθούν κατάλληλες τιμές, η απόδοση των αλγορίθμων αυξάνεται σημαντικά. Έχουν γίνει αρκετές προσπάθειες από ερευνητές, με σκοπό να αποφανθούν ποιος αλγόριθμος είναι προτιμότερος, σε σχέση με το ελάχιστο σφάλμα που παρουσιάζει το δίκτυο όταν εισάγουμε καινούρια δεδομένα και σε συνάρτηση πάντα με το υπολογιστικό κόστος που απαιτείται για να βρεθούν οι βέλτιστες τιμές των υπερπαραμέτρων του. Φαίνεται η επιστημονική κοινότητα να συγκλίνει στην άποψη ότι δεν υπάρχει αλγόριθμος βελτιστο- ποιήσης που να τα πηγαίνει καλύτερα σε όλα τα προβλήματα. Σε αυτή την εργασία, επιβεβαιώνουμε τον προηγούμενο ισχυρισμό, εστιάζοντας σε προβλήματα Επεργασίας Φυσικής Γλώσσας, και συγκεκριμένα σε προβλήματα ταξινόμησης κεινένων που εμπεριέχονται στο General Language Understanding Evaluation (GLUE) benchmark. Μελετάμε και συγκρίνουμε παραλλαγές του Adam, εξετάζοντας το ρόλο που παίζουν οι υπερπαράμετροι στην απόδοση τους. Στις περισσότερες περιπτώσεις οι διαφορές στην απόδοση τους είναι μικρές και συνήθως ασταθείς. Ένα ενδιαφέρον αποτέλεσμα αποτελεί ότι ο Stochastic Gradient Descent (SGD) with momentum έχει συγκρίσιμα αποτελέσματα με βελτιωμένες εκδοχές του Adam, ενώ ο απλός SGD εμφανίζει σημαντικά χειρότερα αποτελέσματα.
