Time series clustering: fuel price analysis across Greek counties
Ημερομηνία
2025-07-16
Συγγραφείς
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων / ουσα
Διαθέσιμο από
Περίληψη
Time series clustering, as a valuable method in data mining and spatiotemporal analysis, has seen increasing relevance in economic studies, particularly in understanding regional market behaviors. This thesis applies such methodology to the case of retail fuel prices in Greece from 2022 to 2024, aiming to uncover latent structures across counties without relying on predefined labels. The adaptation of classical clustering algorithms to time-indexed price data necessitates a careful selection of similarity measures, where the challenge lies in balancing computational efficiency with sensitivity to the temporal dynamics of price evolution. Three clustering methods – K-Means, PAM with Euclidean distance, and PAM with Dynamic Time Warping – were evaluated across three fuel types. The results demonstrate that no single method universally outperformed the others. PAM with Euclidean distance produced the most cohesive and interpretable clusters for Diesel and Unleaded 98/100, capturing subtle spatial pricing regimes. In contrast, K-Means delivered slightly better internal cohesion and statistical separation for Unleaded 95, suggesting its effectiveness when price trajectories exhibit more synchronized temporal patterns. DTW-based clustering, while flexible in theory, underperformed in internal validation metrics and failed to distinguish groups clearly in most cases. The study identifies persistent regional disparities in fuel pricing, with notably higher costs in insular and peripheral areas, and highlights systematic price adjustments during national holidays and high-demand periods. These findings demonstrate the capacity of time series clustering to extract underlying economic patterns from complex and high-frequency price data. The results reinforce the value of unsupervised learning techniques in regional markets, while also emphasizing the methodological trade-offs between interpretability, flexibility, and computational scalability when applied to large-scale spatiotemporal datasets.Η ομαδοποίηση χρονοσειρών αποτελεί μία από τις πλέον αποτελεσματικές μεθόδους στην ανάλυση δεδομένων, ιδιαίτερα στον τομέα της οικονομικής επιστήμης, καθώς επιτρέπει την κατανόηση διαφορών στη συμπεριφορά των αγορών μεταξύ γεωγραφικών περιοχών. Η παρούσα διπλωματική εργασία εφαρμόζει αυτή τη μεθοδολογία στις λιανικές τιμές καυσίμων στην Ελλάδα για την περίοδο 2022–2024, με στόχο την ανάδειξη επαναλαμβανόμενων προτύπων διακύμανσης των τιμών σε επίπεδο νομού. Κεντρικό μεθοδολογικό ζητούμενο υπήρξε η επίτευξη ισορροπίας ανάμεσα στην ακρίβεια της ομαδοποίησης και στην ικανότητα του μοντέλου να ανιχνεύει διακριτές χρονικές δομές εξέλιξης των τιμών. Η ανάλυση βασίστηκε στην εφαρμογή κλασικών αλγορίθμων ομαδοποίησης χρονοσειρών, με την χρήση δύο μετρικών απόστασης. Στο πλαίσιο της μελέτης δοκιμάστηκαν τρεις μέθοδοι: K-Means, PAM με Ευκλείδεια απόσταση και PAM με χρήση της μετρικής Dynamic Time Warping. Τα αποτελέσματα έδειξαν ότι κάθε μέθοδος προσφέρει συγκριτικά πλεονεκτήματα ανάλογα με τα χαρακτηριστικά του εκάστοτε τύπου καυσίμου. Συγκεκριμένα, η μέθοδος PAM με Ευκλείδεια απόσταση παρήγαγε πιο ερμηνεύσιμες ομάδες για το Diesel και την Αμόλυβδη 98/100. Αντίθετα, η μέθοδος K-Means προσέφερε καλύτερη ομαδοποίηση στην Αμόλυβδη 95. Η μέθοδος DTW, παρότι κατάλληλη για μη συγχρονισμένες χρονοσειρές, παρουσίασε υποδεέστερη επίδοση στους δείκτες αξιολόγησης και δεν επέτυχε καθαρό διαχωρισμό των γεωγραφικών περιοχών. Συνολικά, η χωρική ανάλυση ανέδειξε σταθερές γεωγραφικές αποκλίσεις στις τιμές καυσίμων, με συστηματικά υψηλότερες τιμές στις νησιωτικές και απομακρυσμένες περιοχές. Επιπλέον, εντοπίστηκαν επαναλαμβανόμενα μοτίβα αυξομειώσεων τιμών κατά τη διάρκεια εθνικών αργιών. Τα ευρήματα αυτά επιβεβαιώνουν τη χρησιμότητα της ομαδοποίησης χρονοσειρών στην αποκάλυψη υποκείμενων οικονομικών προτύπων, ιδίως όταν πρόκειται για περίπλοκα και υψηλής συχνότητας δεδομένα. Η μελέτη αναδεικνύει τη σημασία των τεχνικών μη εποπτευόμενης μάθησης στην ανάλυση τοπικών αγορών, τονίζοντας παράλληλα την ανάγκη για μεθοδολογική ισορροπία μεταξύ ακρίβειας, ερμηνευσιμότητας και υπολογιστικής αποδοτικότητας, ιδίως σε εφαρμογές μεγάλης κλίμακας.
Περιγραφή
Λέξεις-κλειδιά
Time series clustering, K-Means, PAM, Dynamic Time Warping (DTW), Euclidean distance, Ομαδοποίηση χρονοσειρών, Αλγόριθμος K-Means, Αλγόριθμος PAM, Δυναμική χρονική παραμόρφωση, Ευκλίδεια απόσταση

