Περίληψη : | Η παρούσα διπλωματική εργασία έχει σαν στόχο την ανάπτυξη διαφορετικών μεθόδων για την πρόβλεψη της σχετικής κατάταξης χρηματοοικονομικών προϊόντων, όπως οι μετοχές με γνώμονα την απόδοση τους. Για την επίτευξη του παραπάνω στόχου αναπτύχθηκαν διαφορετικά μοντέλα πρόβλεψης χρονοσειρών καθώς και μοντέλα μηχανικής μάθησης. Απώτερος σκοπός της εργασίας ήταν η σύγκριση της προβλεπτικής ικανότητας μεταξύ των διαφόρων μοντέλων που κατασκευάστηκαν, προκειμένου να αναδειχθεί το ακριβέστερο και καταλληλότερο. Για αυτό το λόγο κατασκευάστηκαν μοντέλα πρόβλεψης χρονοσειρών όπως είναι τα μοντέλα εκθετικής εξομάλυνσης και τα ολοκληρωμένα αυτοπαλινδρομικά μοντέλα κινητού μέσου όρου. Τα μοντέλα αυτά εκπαιδεύτηκαν σε ένα σύνολο εκπαίδευσης το οποίο αποτελούταν από τις σχετικές αποδόσεις πενήντα μετοχών του δείκτη S&P για την χρονική περίοδο τετραετίας, στην συνέχεια έγινε ο έλεγχος της προβλεπτικής απόδοσης σε εξεταζόμενη περίοδο ενός έτους. Ως μετρική της προβλεπτικής ικανότητας των μοντέλων χρησιμοποιήθηκε το πιθανοτικό σφάλμα πρόβλεψης Ranked Probability Score (RPS).Επιπλέον κατασκευάστηκαν μοντέλα μηχανικής μάθησης όπως η λογιστική παλινδρόμηση, το δέντρο ταξινόμησης, το adaptive boosting δέντρο ταξινόμησης, το gradient και extreme gradient δέντρο ταξινόμησης και τέλος το τυχαίο δάσος. Για την εκπαίδευση των παραπάνω μοντέλων κατασκευάστηκαν ειδικά τεχνικά χαρακτηριστικά όπως οι σχετικές αποδόσεις του προηγούμενου μήνα, η διακύμανση και η μέση απόδοση των σχετικών αποδόσεων των προηγούμενων τριών και έξι μηνών και ο μηνιαίος όγκος των συναλλαγών της κάθε εξεταζόμενης μετοχής. Αντίστοιχα, για την κατηγορία των μοντέλων μηχανικής μάθησης υπολογίστηκε το πιθανοτικό σφάλμα πρόβλεψης.Τέλος, έπειτα από την σύγκριση των RPS των παραγόμενων μοντέλων έγινε η ιεράρχηση των μοντέλων με γνώμονα την προβλεπτική τους ικανότητα. Έτσι λοιπόν, ως πιο αποδοτικό αναδείχθηκε το μοντέλο της λογιστικής παλινδρόμησης ενώ με μικρή διαφορά ακολούθησε το δέντρο ταξινόμησης, ενώ την πιο αδύναμη παρουσία φαίνεται να έχει το Random Forest , που παρουσιάζει το υψηλότερο RPS μεταξύ των εξεταζόμενων μοντέλων. This thesis aims to develop different methods for predicting the relative ranking of financial products such as stocks based on their performance. To achieve the above objective, different time series forecasting models as well as machine learning models were developed. The ultimate aim of the study was to compare the predictive ability between the different models constructed in order to identify the most accurate and appropriate one. For this purpose, time series forecasting models such as exponential smoothing models and integrated autoregressive moving average models were constructed. These models were trained on a four years training set which consisted of the relative returns of fifty stocks of the S&P index, then the predictive performance was tested for the time period a year. The Ranked Probability Score (RPS) was used as a metric of the predictive ability of the models.In addition, machine learning models such as logistic regression, classification tree, adaptive boosting classification tree, gradient and extreme gradient classification tree and finally random forest were constructed. To train the above models, specific technical features such as the relative returns of the previous month, the variance and mean of the relative returns of the previous three and six months, and the monthly trading volume of each stock under were constructed. Similarly, as in time series models, the RPS was calculated for the category of machine learning models.Finally, after comparing the RPS of the generated models, the models were ranked based on their predictive accuracy. Thus, the logistic regression model characterized as the most efficient, followed by the classification tree with a small difference, while the weakest performance was the on of the Random Forest, which had the highest RPS among the models considered.
|
---|