Λογότυπο αποθετηρίου
 

Machine learning methods for detection of tax evasion

Μικρογραφία εικόνας

Ημερομηνία

2026-03-10

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέπων / ουσα

Διαθέσιμο από

Περίληψη

Fraud and tax evasion impose significant fiscal and social costs, while their detection is difficult in practice. These challenges motivate anomaly detection frameworks that identify suspicious observations as deviations from learned patterns of normal behavior, with emphasis on ranking, screening, and prevalence-aware evaluation. This thesis studies anomaly detection methods with attention to spatio-temporal structure and heterogeneous anomaly mechanisms. The empirical analysis uses a telematics dataset combining driving dynamics, route deviation measures, and geofencing indicators. Although the application domain is transportation, the setting reflects key challenges of fraud and tax-risk detection: anomalies are rare, definitions of abnormality are plural, and labels may be incomplete or weakly aligned with model objectives. Three approaches are evaluated. First, Isolation Forest is used as an unsupervised baseline to detect unusual behavioral patterns. Second, a deep learning model that accounts for relationships over time and across variables examines whether this structure improves detection. Finally, a weakly supervised approach is used: proxy labels based on extreme values are created and a CatBoost classifier is trained to produce a behavioral anomaly score. In the empirical example, the results distinguish between behavioral and spatial anomalies. Isolation Forest produces a consistent behavioral ranking and performs well when compared with behavioral proxy indicators, even under strong class imbalance. In contrast, deep learning and supervised models trained on route or geofence labels perform close to random, suggesting that these indicators depend on spatial information not included in the available features. Finally, the proxy-supervised CatBoost model shows strong ability to detect behavioral anomalies and remains stable in robustness tests, indicating that the anomaly signal is distributed across multiple telematics features. Overall, the thesis provides an evaluation template and practical guidance on model selection in weakly labeled, structure-rich anomaly detection settings, with implications for fraud and tax-risk monitoring.
Η φοροδιαφυγή επιφέρει σημαντικά δημοσιονομικά και κοινωνικά κόστη, ενώ η ανίχνευσή της είναι δύσκολη στην πράξη. Αυτές οι προκλήσεις παρακινούν τη δημιουργία πλαισίων ανίχνευσης ανωμαλιών που εντοπίζουν ύποπτες παρατηρήσεις ως αποκλίσεις από τα γνωστά πρότυπα.Η παρούσα διατριβή μελετά μεθόδους ανίχνευσης ανωμαλιών με έμφαση στην χωροχρονική δομή και τους ετερογενείς μηχανισμούς ανωμαλιών. Η εμπειρική ανάλυση χρησιμοποιεί ένα σύνολο δεδομένων τηλεματικής που συνδυάζει τη δυναμική οδήγησης, τα μέτρα απόκλισης από τη διαδρομή και τους δείκτες γεωγραφικού περιορισμού. Αν και ο τομέας εφαρμογής είναι οι μεταφορές, το περιβάλλον αντανακλά τις βασικές προκλήσεις της ανίχνευσης φορολογικής απάτης: οι ανωμαλίες είναι σπάνιες, οι ορισμοί της ανωμαλίας είναι πολλαπλοί και οι ετικέτες μπορεί να είναι ατελείς ή να μην ευθυγραμμίζονται πλήρως με τους στόχους του μοντέλου. Αξιολογούνται τρεις προσεγγίσεις. Το Isolation Forest χρησιμοποιείται ως μη εποπτευόμενη βάση αναφοράς για την ανίχνευση ασυνήθιστων προτύπων συμπεριφοράς. Δεύτερον, ένα μοντέλο βαθιάς μάθησης που λαμβάνει υπόψη τις σχέσεις στο χρόνο και μεταξύ των μεταβλητών εξετάζει εάν αυτή η δομή βελτιώνει την ανίχνευση. Τέλος, χρησιμοποιείται μια ασθενώς εποπτευόμενη προσέγγιση, εκπαιδεύεται ένας ταξινομητής CatBoost για την παραγωγή βαθμολογίας ανωμαλίας. Το Isolation Forest παράγει μια συνεπή κατάταξη συμπεριφοράς και έχει καλή απόδοση σε σύγκριση με τους δείκτες συμπεριφοράς, ακόμη και σε συνθήκες έντονης ανισορροπίας κλάσεων. Αντίθετα, τα μοντέλα βαθιάς μάθησης και εποπτευόμενα μοντέλα που έχουν εκπαιδευτεί σε ετικέτες διαδρομής ή γεωφράγματος έχουν απόδοση κοντά στην τυχαία, υποδηλώνοντας ότι αυτοί οι δείκτες εξαρτώνται από χωρικές πληροφορίες που δεν περιλαμβάνονται στα διαθέσιμα χαρακτηριστικά. Τέλος, το μοντέλο CatBoost με εποπτεία proxy δείχνει ισχυρή ικανότητα ανίχνευσης ανωμαλιών και παραμένει σταθερό σε δοκιμές ανθεκτικότητας, υποδηλώνοντας ότι το σήμα ανωμαλίας κατανέμεται σε πολλαπλά χαρακτηριστικά τηλεματικής. Συνολικά, η διατριβή παρέχει ένα πρότυπο αξιολόγησης και πρακτικές οδηγίες για την επιλογή μοντέλου σε περιβάλλοντα ανίχνευσης ανωμαλιών με ασθενή επισήμανση και πλούσια δομή, με επιπτώσεις στην παρακολούθηση της απάτης και του φορολογικού κινδύνου.

Περιγραφή

Λέξεις-κλειδιά

Machine learning, Tax evasion, Outlier anomaly detection, Spatial data, Μηχανική μάθηση, Φοροδιαφυγή, Ανίχνευση ακραίων τιμών, Χωρικά δεδομένα

Παραπομπή

Άδεια Creative Commons