Πλοήγηση ανά Επιβλέποντα "Stafylakis, Themos"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 3 από 3
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Exploring the capabilities of audio-enabled large language models(2024-11-27) Σταθόπουλος, Δημήτριος; Stathopoulos, Dimitrios; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Vassalos, Vasilios; Stafylakis, ThemosΤα τελευταία χρόνια, το πεδίο των πολυτροπικών μεγάλων γλωσσικών μοντέλων (LLMs) έχει γνωρίσει ταχύτατη ανάπτυξη, ιδιαίτερα στον τομέα των μοντέλων που εστιάζουν στον ήχο, όπως τα Penguin, Qwen και Audio-Flamingo. Αυτά τα μοντέλα επιδεικνύουν εξαιρετικές ικανότητες σε εργασίες που ενσωματώνουν τις κειμενικές και ηχητικές διαστάσεις, όπως η περιγραφή ήχου, η απάντηση σε ερωτήσεις που βασίζονται σε ήχο και πολλά άλλα. Ανάμεσά τους, το Audio-Flamingo ξεχωρίζει χάρη στη μοναδική του λειτουργία διαλόγου, που επιτρέπει δυναμικές και διατηρημένες στο πλαίσιο συνομιλίες με πολλαπλές ανταλλαγές.Παράλληλα, ο τομέας της δημιουργίας ήχου/ήχων έχει επίσης σημειώσει σημαντική πρόοδο, με μοντέλα όπως τα AudioBox, Tango2 και AudioLDM2 να πρωτοπορούν στη δημιουργία εξαιρετικά ρεαλιστικού και προσαρμοσμένου στο πλαίσιο ήχου. Αυτά τα μοντέλα αξιοποιούν προηγμένες τεχνικές βαθιάς μάθησης για τη δημιουργία ήχου από περιγραφές κειμένου, επιτυγχάνοντας υψηλά επίπεδα πιστότητας σε διάφορους τομείς ήχου, όπως η μουσική, τα ηχητικά τοπία και η σύνθεση ομιλίας. Τέτοιες εξελίξεις είναι κρίσιμες για εφαρμογές στη διασκέδαση, τα εικονικά περιβάλλοντα και τις τεχνολογίες προσβασιμότητας, όπου η ζήτηση για καθηλωτικό και ρεαλιστικό ήχο συνεχώς αυξάνεται. Παρά τις δυνατότητές τους, τα μοντέλα αυτά συχνά βασίζονται σε μεγάλο βαθμό στην ποιότητα και την ακρίβεια των εισερχόμενων προτροπών, οι οποίες επηρεάζουν άμεσα τον ρεαλισμό και τη συνάφεια του παραγόμενου ήχου. Εκμεταλλευόμενο αυτές τις εξελίξεις τόσο στα πολυτροπικά ηχητικά μοντέλα όσο και στα μοντέλα γεννήτριας ήχου, αυτή η διατριβή παρουσιάζει μια νέα προσέγγιση για τη δημιουργία εξαιρετικά ρεαλιστικών ηχητικών κλιπ, χρησιμοποιώντας μοντέλα όπως το Tango2, τα οποία ενισχύονται μέσω μιας διαδικασίας επαναληπτικής βελτίωσης που βασίζεται σε πολυτροπικές αλληλεπιδράσεις. Η διαδικασία ξεκινά με τη δημιουργία αρχικών ηχητικών κλιπ βάσει κειμενικών προτροπών, ακολουθούμενη από έναν βρόχο ανατροφοδότησης στον οποίο το Audio-Flamingo προτείνει βελτιώσεις στις προτροπές μέσω διαλόγου για τον παραγόμενο ήχο. Ένα γλωσσικό μοντέλο NLP λειτουργεί ως διαμεσολαβητής, ερμηνεύοντας τις προτάσεις του Audio-Flamingo και διαμορφώνοντας βελτιωμένες προτροπές, ενώ παρέχει εξηγήσεις για τις αλλαγές. Αυτός ο κύκλος βελτίωσης επαναλαμβάνεται έως και τρεις φορές, με εμπειρικά ευρήματα να δείχνουν ότι μετά την τρίτη επανάληψη οι προτροπές γίνονται υπερβολικά πολύπλοκες για να επεξεργαστεί το γεννητικό μοντέλο αποτελεσματικά. Χρησιμοποιώντας τις δυνατότητες διαλόγου των ηχητικών LLMs και ενσωματώνοντας βελτίωση προτροπών μέσω NLP, η έρευνα αυτή στοχεύει στη βελτίωση του ρεαλισμού του παραγόμενου ήχου, ενώ εξετάζει τους περιορισμούς της επαναληπτικής πολυτροπικής βελτίωσης προτροπών.Επιπλέον, εισαγάγαμε τη διαδικασία αφαίρεσης ηχητικών συμβάντων, όπου συγκεκριμένα ηχητικά συμβάντα αφαιρέθηκαν είτε από συνθετικά ηχητικά κλιπ είτε αποκλείστηκαν σκόπιμα από τις περιγραφές προτροπών. Ο στόχος του ηχητικού LLM ήταν να εντοπίσει αυτά τα ελλείποντα ηχητικά συμβάντα, επιτρέποντάς μας να αξιολογήσουμε την ικανότητά του να ανιχνεύει και να κατανοεί απουσιάζοντα στοιχεία. Τέλος, δημιουργήσαμε ηχητικά κλιπ που προέρχονται από διάφορα βίντεο της πλατφόρμας YouTube. Ενώ η πλειοψηφία αυτών των κλιπ περιείχε περιεχόμενο βασισμένο στην ομιλία, ένα μικρό μέρος εστίασε στη μουσική. Σε αυτή τη διαδικασία, αναθέσαμε στο ηχητικό LLM να απαντήσει όσο το δυνατόν ακριβέστερα σε ερωτήσεις σχετικά με μια ποικιλία σεναρίων βασισμένων σε ομιλία και μουσική, παρέχοντας πληροφορίες για την ικανότητά του να κατανοεί και να ανταποκρίνεται σε διαφορετικά ρεαλιστικά πλαίσια.Τεκμήριο Leveraging polynomial interactions for synthetic speech detection(2024-12-20) Ψάλτης, Στυλιανός; Psaltis, Stylianos; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Toumpis, Stavros; Stafylakis, ThemosΗ εξάπλωση των ψηφιακών τεχνολογιών ήχου έχει δημιουργήσει σημαντικές προκλήσεις στην επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων. Η παρούσα διατριβή προτείνει µία καινοτόμο προσέγγιση για την ανίχνευση παραποιημένων ηχητικών αρχείων, βασισμένη σε πολυωνυμία δίκτυα, τα οποία προσφέρουν ενισχυμένη αναγνώριση προτύπων και ταξινόμηση. Σε αντίθεση µε την αδιαφανή φύση των βαθιών νευρωνικών δικτύων, που ενδέχεται να αποτελέσουν αχίλλειο πτέρνα στο μέλλον, τα πολυωνυμία δίκτυα προσφέρουν μεγαλύτερη διαφάνεια, επιτρέποντας βαθύτερη κατανόηση της διαδικασίας λήψης αποφάσεων του μοντέλου. Αυτή η προσέγγιση επιδιώκει τη βελτίωση τόσο της ανίχνευσης παραποιημένων ηχητικών δεδομένων όσο και της ερµηνευσιµότητας του μοντέλου, εξασφαλίζοντας πιο αξιόπιστα συστήματα πιστοποίησης ήχου. Επιπλέον, οι διαγωνισμοί ASVspoof, οι οποίοι αποσκοπούν στην επιτάχυνση της έρευνας κατά της παραποίησης ήχου, λαμβάνονται υπόψιν στη παρούσα διατριβή και συμβάλλουν στην ανάπτυξη αυτής της καινοτόμου προσέγγισης µέσω πολυωνυμιών αλληλεπιδράσεων για την επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων.Τεκμήριο Synthetic speech source tracing using metric learning(2025-09-16) Zacharopoulos, Stavros; Ζαχαρόπουλος, Σταύρος; Stafylakis, ThemosΣτην εργασία αυτή εξετάζουµε την πρόϰληση της ιχνηλάτησης της πηγής συνϑετιϰής οµιλίας, δηλαδή την αναγνώριση του µοντέλου που παρήγαγε ένα ηχητιϰό δείγµα, µέσω µεϑόδων εµπνευσµένων από την αναγνώριση οµιλητών. Σε αντίϑεση µε τη σχετιϰά ώριµη περιοχή της ανίχνευσης παραποιηµένης οµιλίας (spoofing detection), η ιϰανότητα αναγνώρισης του συστήµατος παραγωγής της παραποιηµένης φωνής παραµένει περιορισµένη, παρά την ιδιαίτερη σηµασία της για εφαρµογές ψηφιαϰής εγϰληµατολογίας ϰαι αντιµετώπισης παραπληροφόρησης. Προσεγγίζουµε το πρόβληµα συγϰρίνοντας δύο διαφορετιϰές στρατηγιϰές: την παρα δοσιαϰή ταξινόµηση ϰαι τη µάϑηση µε µετριϰές (metric learning). Για την υλοποίηση των προσεγγίσεών µας χρησιµοποιούµε δύο µοντέλα: ένα ResNet-34 µιϰρής υπολογισ τιϰής πολυπλοϰότητας ϰαι ένα αυτο-επιβλεπόµενο µοντέλο AASIST εµπλουτισµένο µε embeddings από Wav2Vec2. Πειραµατιζόµαστε µε διαφορετιϰές λειτουργίες απώλειας, µεϑόδους δειγµατοληψίας, ϰαϑώς ϰαι µεγέϑη εξόδου embeddings. Τα πειραµατιϰά µας αποτελέσµατα, που βασίζονται στο benchmark MLAADv5, δείχ νουν ότι η προσέγγιση µε ResNet σε συνδυασµό µε metric learning (ειδιϰά µε GE2E loss) πετυχαίνει εξαιρετιϰά χαµηλά ποσοστά σφάλµατος (EER), συγϰρίσιµα ή ϰαι ϰαλύτερα από αυτά του AASIST. Επιπλέον, δείχνουµε ότι αϰόµα ϰαι embeddings µιϰρής διαστατιϰότητας (10–50) επαρϰούν για αποδοτιϰή ταξινόµηση. Η µελέτη µας αναδειϰνύει τη δυνατότητα αξιοποίησης ελαφριών µοντέλων για την ιχνηλάτηση πηγής σε συνϑετιϰή οµιλία, παρέχοντας ένα πρώτο βήµα προς πιο αποδοτιϰά ϰαι εφαρµόσιµα εργαλεία για την ανίχνευση ϰαι ϰαταπολέµηση συνϑετιϰών µέσων.