Λογότυπο αποθετηρίου
 

Synthetic speech source tracing using metric learning

dc.aueb.departmentDepartment of Informatics
dc.contributor.thesisadvisorStafylakis, Themosen
dc.creatorZacharopoulos, Stavrosen
dc.creatorΖαχαρόπουλος, Σταύροςel
dc.date.accessioned2025-09-16T10:44:38Z
dc.date.available2025-09-16T10:44:38Z
dc.date.issued2025-09-16
dc.description.abstractΣτην εργασία αυτή εξετάζουµε την πρόϰληση της ιχνηλάτησης της πηγής συνϑετιϰής οµιλίας, δηλαδή την αναγνώριση του µοντέλου που παρήγαγε ένα ηχητιϰό δείγµα, µέσω µεϑόδων εµπνευσµένων από την αναγνώριση οµιλητών. Σε αντίϑεση µε τη σχετιϰά ώριµη περιοχή της ανίχνευσης παραποιηµένης οµιλίας (spoofing detection), η ιϰανότητα αναγνώρισης του συστήµατος παραγωγής της παραποιηµένης φωνής παραµένει περιορισµένη, παρά την ιδιαίτερη σηµασία της για εφαρµογές ψηφιαϰής εγϰληµατολογίας ϰαι αντιµετώπισης παραπληροφόρησης. Προσεγγίζουµε το πρόβληµα συγϰρίνοντας δύο διαφορετιϰές στρατηγιϰές: την παρα δοσιαϰή ταξινόµηση ϰαι τη µάϑηση µε µετριϰές (metric learning). Για την υλοποίηση των προσεγγίσεών µας χρησιµοποιούµε δύο µοντέλα: ένα ResNet-34 µιϰρής υπολογισ τιϰής πολυπλοϰότητας ϰαι ένα αυτο-επιβλεπόµενο µοντέλο AASIST εµπλουτισµένο µε embeddings από Wav2Vec2. Πειραµατιζόµαστε µε διαφορετιϰές λειτουργίες απώλειας, µεϑόδους δειγµατοληψίας, ϰαϑώς ϰαι µεγέϑη εξόδου embeddings. Τα πειραµατιϰά µας αποτελέσµατα, που βασίζονται στο benchmark MLAADv5, δείχ νουν ότι η προσέγγιση µε ResNet σε συνδυασµό µε metric learning (ειδιϰά µε GE2E loss) πετυχαίνει εξαιρετιϰά χαµηλά ποσοστά σφάλµατος (EER), συγϰρίσιµα ή ϰαι ϰαλύτερα από αυτά του AASIST. Επιπλέον, δείχνουµε ότι αϰόµα ϰαι embeddings µιϰρής διαστατιϰότητας (10–50) επαρϰούν για αποδοτιϰή ταξινόµηση. Η µελέτη µας αναδειϰνύει τη δυνατότητα αξιοποίησης ελαφριών µοντέλων για την ιχνηλάτηση πηγής σε συνϑετιϰή οµιλία, παρέχοντας ένα πρώτο βήµα προς πιο αποδοτιϰά ϰαι εφαρµόσιµα εργαλεία για την ανίχνευση ϰαι ϰαταπολέµηση συνϑετιϰών µέσων.el
dc.description.abstractThis thesis addresses source tracing in synthetic speech—identifying generative systems behind manipulated audio via speaker recognition-inspired pipelines. While prior work focuses on spoofing detection, source tracing lacks robust solutions. We evaluate two approaches: classification-based and metric-learning. We tested our methods on the MLAADv5 benchmark using ResNet and self-supervised learning (SSL) backbones. The results show that ResNet achieves competitive performance with the metric learning ap proach, matching and even exceeding SSL-based systems. Our work demonstrates ResNet’s viability for source tracing while underscoring the need to optimize SSL representations for this task. Our work bridges speaker recognition methodologies with audio forensic challenges, offering new directions for combating synthetic media manipulationen
dc.embargo.ruleOpen access
dc.format.extentpages 34en
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/12132
dc.identifier.urihttps://doi.org/10.26219/heal.aueb.9394
dc.languageen
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectSynthetic speech sourceen
dc.subjectMetric learningen
dc.subjectΠηγή συνθετικής ομιλίαςel
dc.subjectΜετρική μάθησηel
dc.titleSynthetic speech source tracing using metric learningen
dc.title.alternativeΕντοπισμός πηγής συνθετικής ομιλίας με χρήση μετρικής μάθησηςel
dc.typeTexten

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Zacharopoulos_2025.pdf
Μέγεθος:
1.31 MB
Μορφότυπο:
Adobe Portable Document Format