Repository logo
 

Music xLSTM: learning discriminative music embeddings with an xLSTM network

Loading...
Thumbnail Image

Date

2026-03-19

Journal Title

Journal ISSN

Volume Title

Publisher

Available from

Abstract

The exponential growth of user-generated content across digital platforms has made the reliable identification of copyrighted music a critical challenge. Modern music identification systems must operate under extreme variability—identifying short, noisy, and heavily transformed audio excerpts at scale. While convolutional encoders have served as the backbone of many large-scale identification pipelines, they are often limited in their ability to capture the long-range temporal structure characteristic of musical signals. This thesis presents Music-xLSTM, a music fingerprinting model built by adapting the long-context Audio xLSTM architecture to the demands of large-scale music retrieval. The model is fine-tuned using task-specific objectives to produce compact and robust embeddings that remain discriminative across real-world audio distortions. Importantly, the work is developed for direct production deployment and designed to integrate into an operational music identification pipeline currently used in copyright enforcement workflows. Experimental results show that Music-xLSTM improves retrieval performance over CNN-based baselines while maintaining compactness and efficiency suitable for million-scale indexing and retrieval.
Η ραγδαία αύξηση του περιεχομένου που μεταφορτώνεται στις ψηφιαϰές πλατφόρμες έχει ϰαταστήσει την αξιόπιστη αναγνώριση μουσιϰού περιεχομένου που προστατεύεται από πνευματιϰά διϰαιώματα μια σημαντιϰή τεχνιϰή πρόϰληση. Τα σύγχρονα συστήματα αναγνώρισης μουσιϰής ϰαλούνται να λειτουργούν υπό ιδιαίτερα απαιτητιϰές συνϑήϰες, αναγνωρίζοντας σύντομα, ϑορυβώδη ϰαι έντονα τροποποιημένα αποσπάσματα ήχου σε μεγάλη ϰλίμαϰα. Παρότι οι ϰωδιϰοποιητές ήχου που βασίζονται σε Συνελιϰτιϰά Νευρωνιϰά ∆ίϰτυα (CNN) αποτελούν τη βάση πολλών συστημάτων αναγνώρισης μουσιϰής μεγάλης ϰλίμαϰας, συχνά εμφανίζουν περιορισμούς στη δυνατότητά τους να ϰωδιϰοποιούν τα χρονιϰά εξαρτώμενα χαραϰτηριστιϰά των μουσιϰών σημάτων. Η παρούσα διπλωματιϰή εργασία παρουσιάζει το Music-xLSTM, αξιοποιώντας την αρχιτεϰτονιϰή του προεϰπαιδευμένου Audio-xLSTM ϰαι προσαρμόζοντάς την στις ανάγϰες της αναγνώρισης μουσιϰής μεγάλης ϰλίμαϰας. Το μοντέλο εϰπαιδεύεται με στόχο την παραγωγή συμπαγών ϰαι ανϑεϰτιϰών αναπαραστάσεων ήχου που παραμένουν διαϰριτιϰές αϰόμη ϰαι υπό πραγματιϰές συνϑήϰες παραμόρφωσης του σήματος. Το μοντέλο έχει σχεδιαστεί ώστε να ενσωματώνεται άμεσα σε ένα παραγωγιϰό σύστημα εφαρμογής μουσιϰών πνευματιϰών διϰαιωμάτων. Τα πειραματιϰά αποτελέσματα δείχνουν ότι το Music-xLSTM βελτιώνει την απόδοση στην ανάϰτηση περιεχομένου σε σύγϰριση με ϰωδιϰοποιητές που βασίζονται σε Συνελιϰτιϰά Νευρωνιϰά ∆ίϰτυα, διατηρώντας παράλληλα τη συμπαγή αναπαράσταση ϰαι την υπολογιστιϰή αποδοτιϰότητα που απαιτούνται για συστήματα μεγάλης ϰλίμαϰας.

Description

Keywords

xLSTM, Music information retrieval, Audio fingerprinting, Deep learning, Signal processig, Μουσική αναγνώριση, Επεξεργασία σήματος, Βαθιά μάθηση

Citation