Λογότυπο αποθετηρίου
 

Zero-shot vs. fine-tuned LLMs for customer complaint classification: a benchmark study on the CFPB dataset

Μικρογραφία εικόνας

Ημερομηνία

2026-02-02

Συγγραφείς

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέπων / ουσα

Διαθέσιμο από

Περίληψη

This master's thesis investigates the performance and efficiency trade-offs between fine-tuned lightweight transformer models and zero-shot Large Language Models (LLMs) for classifying consumer financial complaints. Using a dataset from the Consumer Financial Protection Bureau (CFPB) covering the year 2025, the study benchmarks a fine-tuned DistilBERT model against state-of-the-art LLMs, including GPT-5.2, Claude Sonnet 4.5, and Grok 4.1, in a zero-shot setting. The research addresses data challenges by consolidating complaints into a robust six-category framework to mitigate class imbalance and semantic ambiguity. The empirical results demonstrate that the fine-tuned DistilBERT model achieved the highest predictive performance with an accuracy of 87.78% and a weighted F1-score of 0.8795, outperforming all zero-shot LLMs. Among the generative models, GPT-5.2 performed best with an accuracy of 87.32%, indicating that the gap between supervised and zero-shot approaches has significantly narrowed. However, the analysis highlights critical disparities in operational viability. While frontier reasoning models offered high accuracy, they incurred substantially higher costs compared to efficient models like Grok 4.1-fast and GPT-5-mini. The thesis concludes that while zero-shot LLMs are ideal for rapid prototyping and low-volume tasks, fine-tuned lightweight models remain the superior choice for high-throughput, cost-sensitive regulatory environments due to their economic scalability and consistent latency.
Η παρούσα μεταπτυχιακή διατριβή διερευνά την απόδοση και τα συγκριτικά οφέλη μεταξύ εξειδικευμένων (fine-tuned) μοντέλων transformer και Μεγάλων Γλωσσικών Μοντέλων (LLMs) μηδενικής εκμάθησης (zero-shot) για την ταξινόμηση παραπόνων στον χρηματοοικονομικό τομέα. Χρησιμοποιώντας δεδομένα από το Consumer Financial Protection Bureau (CFPB) για το έτος 2025, η μελέτη συγκρίνει ένα εξειδικευμένο μοντέλο DistilBERT με σύγχρονα LLMs, όπως τα GPT-5.2, Claude Sonnet 4.5 και Grok 4.1. Η έρευνα εφαρμόζει ένα πλαίσιο ταξινόμησης έξι κατηγοριών για την αντιμετώπιση της ανισορροπίας των κλάσεων και της σημασιολογικής ασάφειας. Τα εμπειρικά αποτελέσματα καταδεικνύουν ότι το εξειδικευμένο μοντέλο DistilBERT πέτυχε την υψηλότερη προγνωστική ικανότητα με ακρίβεια 87,78% και σταθμισμένο F1-score 0,8795, ξεπερνώντας όλα τα zero-shot LLMs. Μεταξύ των παραγωγικών μοντέλων, το GPT-5.2 σημείωσε την καλύτερη επίδοση με ακρίβεια 87,32%, γεγονός που υποδεικνύει ότι το χάσμα μεταξύ επιβλεπόμενης και μηδενικής μάθησης έχει μειωθεί σημαντικά. Ωστόσο, η ανάλυση αναδεικνύει σημαντικές διαφορές στη λειτουργική βιωσιμότητα, ενώ τα μοντέλα συλλογιστικής προσέφεραν υψηλή ακρίβεια, το κόστος τους ήταν πολύ υψηλότερο συγκριτικά με αποδοτικότερα μοντέλα όπως το Grok 4.1-fast και το GPT-5-mini. Η διατριβή καταλήγει στο συμπέρασμα ότι, ενώ τα zero-shot LLMs είναι ιδανικά για γρήγορη πρωτοτυποποίηση, τα εξειδικευμένα ελαφριά μοντέλα παραμένουν η βέλτιστη επιλογή για κανονιστικές εφαρμογές μεγάλου όγκου λόγω της οικονομικής τους κλιμάκωσης και της σταθερής ταχύτητας απόκρισης.

Περιγραφή

Λέξεις-κλειδιά

Text classification, Large Language Models (LLMs), Consumer complaints, Consumer Financial Protection Bureau (CFPB), Ταξινόμηση κειμένου, Μεγάλα γλωσσικά μοντέλα, Παράπονα καταναλωτών

Παραπομπή

Άδεια Creative Commons