Λογότυπο αποθετηρίου
 

Synthetic speech source tracing using metric learning

Δεν υπάρχει διαθέσιμη μικρογραφία

Ημερομηνία

2025-09-16

Συγγραφείς

Zacharopoulos, Stavros
Ζαχαρόπουλος, Σταύρος

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέποντα

Διαθέσιμο από

Περίληψη

Στην εργασία αυτή εξετάζουµε την πρόϰληση της ιχνηλάτησης της πηγής συνϑετιϰής οµιλίας, δηλαδή την αναγνώριση του µοντέλου που παρήγαγε ένα ηχητιϰό δείγµα, µέσω µεϑόδων εµπνευσµένων από την αναγνώριση οµιλητών. Σε αντίϑεση µε τη σχετιϰά ώριµη περιοχή της ανίχνευσης παραποιηµένης οµιλίας (spoofing detection), η ιϰανότητα αναγνώρισης του συστήµατος παραγωγής της παραποιηµένης φωνής παραµένει περιορισµένη, παρά την ιδιαίτερη σηµασία της για εφαρµογές ψηφιαϰής εγϰληµατολογίας ϰαι αντιµετώπισης παραπληροφόρησης. Προσεγγίζουµε το πρόβληµα συγϰρίνοντας δύο διαφορετιϰές στρατηγιϰές: την παρα δοσιαϰή ταξινόµηση ϰαι τη µάϑηση µε µετριϰές (metric learning). Για την υλοποίηση των προσεγγίσεών µας χρησιµοποιούµε δύο µοντέλα: ένα ResNet-34 µιϰρής υπολογισ τιϰής πολυπλοϰότητας ϰαι ένα αυτο-επιβλεπόµενο µοντέλο AASIST εµπλουτισµένο µε embeddings από Wav2Vec2. Πειραµατιζόµαστε µε διαφορετιϰές λειτουργίες απώλειας, µεϑόδους δειγµατοληψίας, ϰαϑώς ϰαι µεγέϑη εξόδου embeddings. Τα πειραµατιϰά µας αποτελέσµατα, που βασίζονται στο benchmark MLAADv5, δείχ νουν ότι η προσέγγιση µε ResNet σε συνδυασµό µε metric learning (ειδιϰά µε GE2E loss) πετυχαίνει εξαιρετιϰά χαµηλά ποσοστά σφάλµατος (EER), συγϰρίσιµα ή ϰαι ϰαλύτερα από αυτά του AASIST. Επιπλέον, δείχνουµε ότι αϰόµα ϰαι embeddings µιϰρής διαστατιϰότητας (10–50) επαρϰούν για αποδοτιϰή ταξινόµηση. Η µελέτη µας αναδειϰνύει τη δυνατότητα αξιοποίησης ελαφριών µοντέλων για την ιχνηλάτηση πηγής σε συνϑετιϰή οµιλία, παρέχοντας ένα πρώτο βήµα προς πιο αποδοτιϰά ϰαι εφαρµόσιµα εργαλεία για την ανίχνευση ϰαι ϰαταπολέµηση συνϑετιϰών µέσων.
This thesis addresses source tracing in synthetic speech—identifying generative systems behind manipulated audio via speaker recognition-inspired pipelines. While prior work focuses on spoofing detection, source tracing lacks robust solutions. We evaluate two approaches: classification-based and metric-learning. We tested our methods on the MLAADv5 benchmark using ResNet and self-supervised learning (SSL) backbones. The results show that ResNet achieves competitive performance with the metric learning ap proach, matching and even exceeding SSL-based systems. Our work demonstrates ResNet’s viability for source tracing while underscoring the need to optimize SSL representations for this task. Our work bridges speaker recognition methodologies with audio forensic challenges, offering new directions for combating synthetic media manipulation

Περιγραφή

Λέξεις-κλειδιά

Synthetic speech source, Metric learning, Πηγή συνθετικής ομιλίας, Μετρική μάθηση

Παραπομπή

Άδεια Creative Commons