Abstract : | Στην παρούσα μελέτη, το Deep Reinforcement Learning (RL) χρησιμοποιείται για την επίλυση μιας μορφής του προβλήματος της εύρεσης διαδρομής ελάχιστου κόστους που σχετίζεται με τη θαλάσσια πλοήγηση. Το πρόβλημα διαδρομής ελάχιστου κόστους σε μια τέτοια προσέγγιση έρχεται με έναν τεράστιο χώρο κατάστασης (state space), λόγω του μεγάλου αριθμού μοναδικών χαρακτηριστικών στη θαλάσσια πλοήγηση, όπως το κόστος πλοήγησης, το κόστος αλλαγής της κατεύθυνσης του τιμονιού του πλοίου, η βαθυμετρία, ο τύπος του σκάφους, οι περιορισμοί σε επιλέξιμες ή απαγορευμένες τοποθεσίες για πλοήγηση, πιθανές πληροφορίες καιρού και άλλα. Αυτό καθιστά την εφαρμογή αλγορίθμων ελάχιστων μονοπατιών που βρίσκουν τη βέλτιστη λύση, όπως ο Dijkstra ανέφικτη ή ακόμη και αδύνατη. Αυτή η εργασία στοχεύει στην υλοποίηση της παραπάνω θαλάσσιας πλοήγησης ως μοντέλο RL καθορίζοντας τον χώρο κατάστασης, τον χώρο δράσης και την ανταμοιβή. Στους παραπάνω ορισμούς ενσωματώνονται διάφορες πτυχές και χαρακτηριστικά μοναδικά για τη θαλάσσια πλοήγηση. Πρώτον, το κόστος των καυσίμων θεωρείται η απόσταση μεταξύ δύο λιμένων. Όσο μεγαλύτερη είναι η απόσταση τόσο μεγαλύτερη είναι η κατανάλωση καυσίμου. Επιπλέον, ο αριθμός των φορών που αλλάζει κατεύθυνση το πλοίο θεωρείται επιπλέον κόστος. Δεδομένου ότι τα φορτηγά πλοία έχουν μεγάλο βάρος, απαιτούν επιπλέον ενέργεια για να αλλάξουν κατεύθυνση. Επομένως, όσο πιο ομαλή είναι η διαδρομή, τόσο πιο αποδοτικό γίνεται το ταξίδι. Ένα βαθύ μοντέλο Q-learning που λαμβάνει ως είσοδο την κατάσταση και επιστρέφει ως αποτέλεσμα αυτών των ενεργειών, εκπαιδεύτηκε Το μοντέλο που προσεγγίζει την τιμή της συνάρτησης Q είναι ένα νευρικό δίκτυο τροφοδοσίας με τρία κρυφά στρώματα. Η διαδρομή ελάχιστου κόστους μέσω αυτού του μοντέλου μπόρεσε να υπολογιστεί. Τα πειράματα που πραγματοποιήθηκαν δείχνουν ότι ένας πράκτορας (agent) που χρησιμοποιεί βαθιά Q-learning μπορεί να φτάσει στον προορισμό με ανάλογο κόστος συγκρίσιμο με αυτό ενός βέλτιστου αλγορίθμου, όπως ο αλγόριθμος δρομολόγησης ελάχιστου κόστους Dijkstra. In the present study, deep Reinforcement Learning (RL) is used to solve an instance of the minimum-cost path problem pertinent to marine navigation. The minimum-cost path problem in such a setting comes with a huge state space, due to the large number of unique features to marine navigation such as navigation cost, cost of changing the direction of the ship’s wheel, bathymetry, vessel type, the constraints in eligible or forbidden locations to sail, possible a priori weather information, and others. This renders the application of algorithms that find the optimal solution, such as Dijkstra impractical or even impossible. This work aims to abstract the marine navigation setting above as a RL model by defining the state space, action space, and reward. In the definitions above various aspects and features unique to marine navigation are incorporated. First, the cost of fuel is considered as the distance between two ports. The longer the distance is the greater the fuel consumption. Additionally, the number of times the direction of the ship’s wheel changes is considered as a cost. Since cargo ships weight a lot, they require additional energy to change direction. Therefore, the smoother the path is the more fuel efficient it becomes. A deep Q-learning model that receives as an input the state and returns as an output these actions, was trained. The model which approximates the Q-function value is a feedforward neural network with three hidden layers. The minimum-cost path through this model was able to be computed. Conducted experiments demonstrate that an agent using deep Q-learning can reach the destination with a cost commensurate comparable to that of an optimal algorithm such as the Dijkstra min-cost routing algorithm.
|
---|