Review of machine learning methods for detection of tax evasion and avoidance
Φόρτωση...
Ημερομηνία
2025-03-26
Συγγραφείς
Tzamourani, Panagiota
Τζαμουράνη, Παναγιώτα
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων
Διαθέσιμο από
Περίληψη
Η απάτη στον τομέα της ενέργειας αποτελεί μια σημαντική οικονομική απειλή, οδηγώντας σε εκτεταμένες απώλειες κάθε χρόνο. Η σημασία των νέων αλγορίθμων, οι οποίοι βασίζονται κυρίως σε τεχνικές μηχανικής μάθησης, είναι μεγάλη, καθώς συμβάλλουν στον αποτελεσματικό εντοπισμό δόλιων αγορών και πωλήσεων, μια κρίσιμη παράμετρος για την ελαχιστοποίηση των απωλειών αυτών.
Παρόλο που η ανάπτυξη αποτελεσματικών αλγορίθμων εντοπισμού απάτης είναι μια δύσκολη διαδικασία λόγω προβλημάτων όπως η ανισοκατανομή των κλάσεων και η συνεχής ροή συναλλακτικών δεδομένων, παραμένει μια μέθοδος που μπορεί να συμβάλει στην αποτροπή δόλιων ενεργειών και την εξοικονόμηση εκατομμυρίων δολαρίων ετησίως. Επιπλέον, η δημόσια πρόσβαση στον τομέα αυτό είναι περιορισμένη λόγω ανησυχιών σχετικά με την ιδιωτικότητα, που απορρέουν από τα κανονιστικά πλαίσια των χρηματοπιστωτικών οργανισμών.
Η παρούσα έρευνα βασίζεται σε ελληνικές επιχειρήσεις που δραστηριοποιούνται στον τομέα της ενέργειας, χρησιμοποιώντας ένα πραγματικό σύνολο δεδομένων το οποίο προσφέρει πρακτικές γνώσεις σχετικά με τις προκλήσεις στον εντοπισμό απάτης στα χρηματοπιστωτικά συστήματα.
Θα αναλύσουμε το εν λόγω σύνολο δεδομένων δίνοντας έμφαση σε ποικίλες επιβλεπόμενες τεχνικές, όπως η λογιστική παλινδρόμηση (Logistic Regression), οι αλγόριθμοι δέντρων αποφάσεων (Decision Trees), τα τυχαία δάση (Random Forests) και οι τεχνικές ενισχυτικής μάθησης (Gradient Boosting) για την ανίχνευση απάτης. Η έρευνά μας επεκτείνεται επίσης στον τομέα των ημι-επιβλεπόμενων μεθόδων, περιλαμβάνοντας τεχνικές μάθησης από θετικά και μη επισημασμένα δεδομένα (PU Learning).
Αυτός ο διπλός προσανατολισμός αποτελεί ένα πρωτοποριακό βήμα, καθώς όχι μόνο αναδεικνύει την κατανόηση της κάθε τεχνικής ξεχωριστά, αλλά συνδυάζει και τις δύο προσεγγίσεις. Κύριος στόχος της παρούσας έρευνας είναι να αναδείξει τον κρίσιμο ρόλο των ισχυρών τεχνικών στην αντιμετώπιση της απάτης και τη σημασία των μεθόδων μηχανικής μάθησης.Energy sector fraud constitutes a notable financial threat, resulting in extensive losses every year. The importance of new algorithms which are focused mainly on machine learning techniques, is considerable, as they help the effective detection of fraudulent purchases and sales, a significant part of minimizing these loses.
Although the progress of effective fraud detection algorithms is a difficult growth because of issues such as skewed class contibutions and the steady flow of transaction data, it is a method that can help aver fraudulent purchases and sales and save million dollars annually. Moreover, puclic access in this sector is restricted because of privacy concerns stemming from the regulatory frameworks of financial organizations.
This research is grounded on greek companies operating in the energy sector. Using a real dataset providing practical insights for understanding the challenges of fraud detection in financial systems.
We will explore this dataset, emphasizing on a variety of supervised techniques, such as Logistic Regression, Decision Tree algorithms, Random Forest Algorithms and gradient boosting techniques for fraud detection. Our research also expands into the domain of semi-supervised methods, including learning from positive and unlabeled data (PU learning). This dual represents a pioneering step, as it not only emphasizes our understanding of each technique individually but also combines both approaches. The main goal of this research is to illustrate the crucial role of robust techniques in combating fraud and the importance of machine learning approaches.
Περιγραφή
Λέξεις-κλειδιά
Fraud detection, Machine learning (ML), Positive-unlabeled learning, Class imbalance, Semi-supervised methods, Ανίχνευση απάτης, Μηχανική μάθηση, Μάθηση με θετικά και μη επισημασμένα παραδείγματα, Ανισοκατανομή δεδομένων, Ημι-επιβλεπόμενες μέθοδοι