Λογότυπο αποθετηρίου
 

Greek stock market forecasting: a news-based strategy using LLMs

Μικρογραφία εικόνας

Ημερομηνία

2026-02-03

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέπων / ουσα

Διαθέσιμο από

Περίληψη

This thesis determines if Large Language Models (LLMs) can forecast short-term stock returns in Greece through categorizing real-time news headlines into a signal to translate into systematic trading strategies. This study utilized the Reuters headlines obtained from LSEG with the Only Important Relevance Filter (402 items from July 18, 2024 to July 1, 2025) and the one-minute transaction prices for Athens Stock Exchange (ATHEX) stocks for those which were aligned in Europe / Athens Time. The headlines were categorized using GPT-4 (deployment gpt-4-0613) who had a training cut-off of September 2021; thus, this application is a strict out-of-sample evaluation. Model outputs were mapped to YES / NO / UNKNOWN, with unknowns removed from trading and retained solely for descriptive purposes. The principal assessment employed trading simulations that convert classifications into actionable positions based upon two different execution mechanisms: intra-day signals are executed one minute after they are published and then closed at the same-day closing price; while after-hour signals are executed at the next trading day's opening price and closed at the same day's closing price. There are three trading strategy implementations - long-only (YES), short-only (NO), and long-short (YES/NO), each of which have been developed in both single trade per day compounding and fixed-capital-per-trade without compounding. Per-trade statistics and risk adjusted metrics were used to assess performance with robustness checks for transaction costs. Although the simulations assume zero market impact and frictionless short selling, and do not include dynamic or state dependent transaction costs, the reported economic performance will be considered as a theoretical upper limit when assessing these real world frictions. In addition to the simulation analysis, a high frequency event study examined both pre-event drift (with raw returns to determine if there is any information leakage) and post-event price discovery (with market adjusted abnormal returns), with segmentation of classification and session, and with bootstrap confidence intervals. Results demonstrate that the long-short trading strategy yields the highest performance, with returns that are stable even to moderate levels of transaction cost. Importantly, a timing asymmetry has emerged where after-hours signals possess greater predictive accuracy and per-trade returns than intra-day signals. The single-trade-per-day (compounding) rule implicitly selects for these strong after-hours signals, generating superior efficiency (100.44% over 154 trades) compared to the no-compounding variant (109.12% over 294 trades). In conjunction with the trading results, the event study demonstrated a statistically significant negative drift in response to NO signals and a robustly positive Long-Short (YES-NO) CAR. The evidence clearly indicates a dominant timing asymmetry: after-hours signals are highly significant, while intra-day signals are statistically indistinguishable from random noise. These findings support evidence consistent with a multilayered asymmetry in sentiment, effect, and timing. This thesis presents four primary contributions: MSc Thesis AUEB ii Empirical: The first intraday LLM-news forecasting study in ATHEX with strictly out-of-sample classifications and produces economically significant and statistically significant returns. Methodological: A unified evaluation that combines execution-aware trading simulations with an intraday event study and explicit transaction-cost robustness up to 15 bps in a high-friction market. Analytical: A "Triple Asymmetry" framework—combining sentiment (the potency of NO signals), effect (the volume of YES signals), and timing (the dominance of after-hours signals)— which organizes all of the findings. Extension of Contextual: A small-market, microstructure-aware confirmation and refinement of López-Lira & Tang (2023), demonstrating how opening auction price discovery conditions the effectiveness of LLM-generated signals.
Η παρούσα διατριβή διερευνά κατά πόσον τα Μεγάλα Γλωσσικά Μοντέλα (Large Language Models - LLMs) δύνανται να προβλέψουν τις βραχυπρόθεσμες χρηματιστηριακές αποδόσεις στην Ελλάδα, μέσω της κατηγοριοποίησης τίτλων ειδήσεων σε πραγματικό χρόνο και της μετατροπής τους σε σήματα για συστηματικές στρατηγικές συναλλαγών. Η μελέτη χρησιμοποίησε τίτλους ειδήσεων του Reuters που ελήφθησαν από το LSEG με εφαρμογή του φίλτρου συνάφειας «Only Important» (402 τίτλοι από τις 18 Ιουλίου 2024 έως την 1η Ιουλίου 2025) και τις τιμές συναλλαγών ανά λεπτό για μετοχές του Χρηματιστηρίου Αθηνών (ΧΑ) που ήταν χρονικά ευθυγραμμισμένες με την ώρα Ευρώπης/Αθηνών. Οι τίτλοι κατηγοριοποιήθηκαν με τη χρήση του GPT-4 (έκδοση gpt-4-0613), το οποίο είχε ημερομηνία διακοπής εκπαίδευσης (training cut-off) τον Σεπτέμβριο του 2021, καθιστώντας έτσι την εφαρμογή αυτή μια αυστηρή αξιολόγηση εκτός δείγματος (out-of-sample). Τα αποτελέσματα του μοντέλου χαρτογραφήθηκαν σε ΝΑΙ / ΟΧΙ / ΑΓΝΩΣΤΟ, με τις άγνωστες κατηγοριοποιήσεις να εξαιρούνται από τις συναλλαγές και να διατηρούνται αποκλειστικά για περιγραφικούς σκοπούς. Η κύρια αξιολόγηση εφάρμοσε προσομοιώσεις συναλλαγών που μετατρέπουν τις ταξινομήσεις σε ενεργές θέσεις βάσει δύο διαφορετικών μηχανισμών εκτέλεσης: τα ενδοσυνεδριακά σήματα (intra-day) εκτελούνται ένα λεπτό μετά τη δημοσίευσή τους και κλείνουν στην τιμή κλεισίματος της ίδιας ημέρας, ενώ τα μετασυνεδριακά σήματα (after-hours) εκτελούνται στην τιμή ανοίγματος της επόμενης συνεδρίασης και κλείνουν στην τιμή κλεισίματος της ίδιας ημέρας. Υλοποιήθηκαν τρεις στρατηγικές συναλλαγών — μόνο θέσεις αγοράς (long-only/ΝΑΙ), μόνο θέσεις πώλησης (short-only/ΟΧΙ) και θέσεις αγοράς-πώλησης (long-short/ΝΑΙ-ΟΧΙ) — καθεμία εκ των οποίων αναπτύχθηκε τόσο με ανατοκισμό μίας συναλλαγής ανά ημέρα όσο και με σταθερό κεφάλαιο ανά συναλλαγή χωρίς ανατοκισμό. Η απόδοση αξιολογήθηκε με στατιστικά στοιχεία ανά συναλλαγή και μετρικές προσαρμοσμένες στον κίνδυνο, συμπεριλαμβανομένων ελέγχων ανθεκτικότητας (robustness checks) για το κόστος συναλλαγών. Αν και οι προσομοιώσεις υποθέτουν μηδενικό αντίκτυπο στην αγορά και ανοικτές πωλήσεις χωρίς περιορισμούς, και δεν περιλαμβάνουν δυναμικά ή εξαρτώμενα από την κατάσταση κόστη συναλλαγών, η αναφερόμενη οικονομική απόδοση θεωρείται ως ένα θεωρητικό ανώτατο όριο κατά την αξιολόγηση αυτών των πραγματικών τριβών της αγοράς. Επιπρόσθετα της ανάλυσης προσομοίωσης, διενεργήθηκε μια μελέτη γεγονότων (event study) υψηλής συχνότητας που εξέτασε τόσο την τάση πριν το γεγονός (pre-event drift — με απλές αποδόσεις για τον εντοπισμό τυχόν διαρροής πληροφοριών) όσο και την ανακάλυψη τιμής μετά το γεγονός (με προσαρμοσμένες ως προς την αγορά μη κανονικές αποδόσεις), με τμηματοποίηση της ταξινόμησης και της συνεδρίασης, και με διαστήματα εμπιστοσύνης bootstrap. Τα αποτελέσματα καταδεικνύουν ότι η στρατηγική long-short αποδίδει την υψηλότερη απόδοση, με κέρδη που παραμένουν σταθερά ακόμη και σε μέτρια επίπεδα κόστους συναλλαγών. Σημαντικό εύρημα αποτελεί η ανάδυση μιας χρονικής ασυμμετρίας, όπου τα μετασυνεδριακά σήματα διαθέτουν μεγαλύτερη προβλεπτική ακρίβεια και αποδόσεις ανά συναλλαγή σε σύγκριση με τα ενδοσυνεδριακά. Ο κανόνας της μίας συναλλαγής ανά ημέρα (με ανατοκισμό) επιλέγει εμμέσως αυτά τα ισχυρά μετασυνεδριακά σήματα, παράγοντας ανώτερη αποτελεσματικότητα (100,44% σε 154 συναλλαγές) σε σύγκριση με την παραλλαγή χωρίς ανατοκισμό (109,12% σε 294 συναλλαγές). Σε συνδυασμό με τα αποτελέσματα των συναλλαγών, η μελέτη γεγονότων κατέδειξε μια στατιστικά σημαντική αρνητική τάση ως απάντηση στα σήματα «ΟΧΙ» και μια ισχυρά θετική Σωρευτική Μη Κανονική Απόδοση (CAR) για τη στρατηγική Long-Short (ΝΑΙ-ΟΧΙ). Τα στοιχεία υποδεικνύουν σαφώς μια κυρίαρχη χρονική ασυμμετρία: τα μετασυνεδριακά σήματα είναι εξαιρετικά σημαντικά, ενώ τα ενδοσυνεδριακά είναι στατιστικά μη διακριτά από τον τυχαίο θόρυβο. Τα ευρήματα αυτά υποστηρίζουν ενδείξεις που συνάδουν με μια πολυεπίπεδη ασυμμετρία στο συναίσθημα (sentiment), στο αποτέλεσμα (effect) και στον χρονισμό (timing). Η παρούσα διατριβή παρουσιάζει τέσσερις κύριες συνεισφορές: Εμπειρική: Η πρώτη ενδοσυνεδριακή μελέτη πρόβλεψης ειδήσεων με χρήση LLM στο Χρηματιστήριο Αθηνών (ΧΑ) με αυστηρά εκτός δείγματος ταξινομήσεις, η οποία παράγει οικονομικά και στατιστικά σημαντικές αποδόσεις. Μεθοδολογική: Μια ενοποιημένη αξιολόγηση που συνδυάζει προσομοιώσεις συναλλαγών με επίγνωση της εκτέλεσης (execution-aware), με ενδοσυνεδριακή μελέτη γεγονότων και ρητή ανθεκτικότητα στο κόστος συναλλαγών έως 15 μονάδες βάσης (bps) σε μια αγορά υψηλών τριβών. Αναλυτική: Ένα πλαίσιο «Τριπλής Ασυμμετρίας» — που συνδυάζει το συναίσθημα (η ισχύς των σημάτων «ΟΧΙ»), το αποτέλεσμα (ο όγκος των σημάτων «ΝΑΙ») και τον χρονισμό (η κυριαρχία των μετασυνεδριακών σημάτων) — το οποίο οργανώνει όλα τα ευρήματα. Επέκταση Πλαισίου: Μια επιβεβαίωση και εξειδίκευση της μελέτης των López-Lira & Tang (2023) σε μικρή αγορά και με επίγνωση της μικροδομής, η οποία καταδεικνύει πώς οι συνθήκες ανακάλυψης τιμής κατά τη δημοπρασία ανοίγματος καθορίζουν την αποτελεσματικότητα των σημάτων που παράγονται από LLM.

Περιγραφή

Λέξεις-κλειδιά

Large Language Models (LLMs), Forecasting, Greek stock market, Event study, Trading simulation, LSEG Python API, Μεγάλα γλωσσικά μοντέλα, Μελέτη γεγονότων, Ελληνική χρηματαγορά, Πρόβλεψη

Παραπομπή