Λογότυπο αποθετηρίου
 

Reinforcement learning for semi-Markov decision processes with applications

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsen
dc.contributor.opponentBurnetas, Apostolosen
dc.contributor.opponentManou, Athanasiaen
dc.contributor.thesisadvisorTrevezas, Samisen
dc.creatorΠαλαιού, Κυριακήel
dc.creatorPalaiou, Kyriakien
dc.date.accessioned2023-09-05*
dc.date.available2025-03-26T19:05:30Z
dc.date.issued2023-09-05*
dc.date.issuedoriginal05-09-2023*
dc.date.submitted2023-09-05 13:26:21
dc.description.abstractΑυτή η διατριβή επικεντρώνεται στις ημι-Μαρκοβιανές Διαδικασίες Απόφασης και τη σχέση τους με την Ενισχυτική Μάθηση μέσω της τεχνικής Q-learning. Ξεκινάμε με τη συζήτηση ορισμένων γενικών ιδεών γύρω από τη Μηχανική Μάθηση, την Ενισχυτική Μάθηση και την Ιεραρχική Ενισχυτική Μάθηση. Συνεχίζουμε με μια ανάλυση της θεωρίας των Μαρκοβιανών Διαδικασιών από τη μαθηματική άποψη. Έπειτα, γενικεύουμε την προηγούμενη θεωρία σε συνεχές χρόνο, δηλαδή σε ημι-Μαρκοβιανές Διαδικασίες Απόφασης. Τέλος, παρουσιάζεται ένας αλγόριθμος Ενισχυτικής Μάθησης βασισμένος σε προσομοίωση για την επίλυση ημι-Μαρκοβιανών Διαδικασιών Απόφασης. Ειδικότερα, ο αλγόριθμος που αναπτύχθηκε εδώ ελέγχεται σε ένα πρόβλημα προληπτικής συντήρησης που αντιμετωπίζεται σε συστήματα παραγωγής-αποθήκευσης.el
dc.description.abstractThis thesis focuses on semi-Markov decision processes and their connection with Reinforcement Learning via Q-learning technique. We start by discussing some general ideas around Machine Learning, Reinforcement Learning and Hierarchical Reinforcement Learning. We continue with an analysis of the theory of Markov Decision Processes from the mathematical point of view. After that, we generalize the previous theory into continuous time i.e. into the semi-Markov Decision Processes. Finally, it is presented a new simulation-based Reinforcement Learning algorithm for solving SMDPs. In particular, the algorithm developed here is tested on a preventive maintenance problem encountered in production-inventory (PI) systems.en
dc.embargo.expire2023-09-05 13:26:21
dc.embargo.ruleOpen access
dc.format.extent68p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10676
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/898
dc.identifier.urihttps://doi.org/10.26219/heal.aueb.4582
dc.languageen
dc.rightsCC BY: Attribution alone 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectΕνισχυτική μάθησηel
dc.subjectHμι-Μαρκοβιανές διαδικασίες απόφασηςel
dc.subjectΣυστήματα παραγωγής-αποθήκευσηςel
dc.subjectReinforcement learningen
dc.subjectSemi-Markov decision processes (SMDPs)en
dc.subjectProduction-Inventory (PI) systemsen
dc.titleReinforcement learning for semi-Markov decision processes with applicationsen
dc.title.alternativeΕνισχυτική μάθηση για ημι-Mαρκοβιανές διαδικασίες απόφασης με εφαρμογέςel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Palaiou_2023.pdf
Μέγεθος:
1.06 MB
Μορφότυπο:
Adobe Portable Document Format