Λογότυπο αποθετηρίου
 

Benchmarking audio language models for music performance assessment

Μικρογραφία εικόνας

Ημερομηνία

2026-03-31

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέπων / ουσα

Διαθέσιμο από

Περίληψη

Large audio-language models (LALMs) have been evaluated on a range of musical capabilities, including knowledge, reasoning, and information retrieval. However, the ability of LALMs to assess piano and guitar performances, including detecting, categorising, and describing mistakes, and providing useful feedback, remains unexplored. We address this gap by introducing a benchmark of 138 piano and guitar recordings, each either performed correctly or containing a single intentional mistake from one of seven categories including pitch, rhythm and timing, and harmony. We evaluate four models (Gemini 2.0 Flash, Qwen2.5-Omni-7B, Audio Flamingo 3, and Music Flamingo) on three tasks: classifying the type of mistake from a fixed set of options, describing the mistake in free text and providing corrective feedback, and comparing two performances of the same exercise against a given criterion. Free-text responses are further assessed through SBERT cosine similarity and an LLM-as-a-Judge approach with GPT-4o. Even the best-performing model, Gemini 2.0 Flash, achieves only 43.3% on multiple-choice classification, and three of four models fall below chance on pairwise comparison. The majority of mistake descriptions are rated as incorrect by the LLM judge, and no model consistently produces feedback that would be useful to a student. These results reveal a significant gap between current LALM capabilities and the requirements of music performance assessment.
Τα μεγάλα ακουστικά-γλωσσικά μοντέλα (Large Audio-Language Models, LALMs) έχουν αξιολογηθεί σε ένα ευρύ φάσμα μουσικών ικανοτήτων, όπως η γνώση, η συλλογιστική και η ανάκτηση μουσικής πληροφορίας. Ωστόσο, η ικανότητά τους να αξιολογούν εκτελέσεις πιάνου και κιθάρας, συμπεριλαμβανομένου του εντοπισμού, της κατηγοριοποίησης και της περιγραφής λαθών, καθώς και της παροχής διορθωτικής ανατροφοδότησης, δεν έχει διερευνηθεί. Στην παρούσα εργασία, παρουσιάζουμε ένα benchmark 138 ηχογραφήσεων πιάνου και κιθάρας, οι οποίες είτε εκτελούνται σωστά είτε περιέχουν ένα εκούσιο λάθος από μία από επτά κατηγορίες λαθών, όπως τονικό ύψος, ρυθμός, χρόνος και αρμονία, μεταξύ άλλων. Αξιολογούμε τέσσερα μοντέλα (Gemini 2.0 Flash, Qwen2.5-Omni-7B, Audio Flamingo 3 και Music Flamingo) σε τρεις εργασίες: κατηγοριοποίηση του τύπου λάθους από προκαθορισμένο σύνολο επιλογών, περιγραφή του λάθους σε ελεύθερο κείμενο με παροχή διορθωτικής ανατροφοδότησης, και σύγκριση δύο εκτελέσεων της ίδιας άσκησης με βάση ένα δεδομένο κριτήριο. Οι απαντήσεις ελεύθερου κειμένου αξιολογούνται επιπλέον μέσω σημασιολογικής ομοιότητας SBERT και της προσέγγισης LLM-as-a-Judge με το GPT-4o. Το μοντέλο με την υψηλότερη επίδοση, το Gemini 2.0 Flash, επιτυγχάνει μόλις 43,3% στην κατηγοριοποίηση πολλαπλής επιλογής, ενώ τρία από τα τέσσερα μοντέλα δεν ξεπερνούν την τυχαία επιλογή στη σύγκριση κατά ζεύγη. Η πλειονότητα των περιγραφών των λαθών αξιολογείται ως λανθασμένη από τον LLM-as-a-Judge, ενώ κανένα μοντέλο δεν παράγει σταθερά χρήσιμη ανατροφοδότηση για έναν μαθητή. Τα αποτελέσματα αυτά αναδεικνύουν ότι οι ικανότητες των σημερινών LALMs απέχουν από τις απαιτήσεις της αξιολόγησης μουσικής εκτέλεσης.

Περιγραφή

Λέξεις-κλειδιά

Large Audio Language Models (LALMs), Music performance assessment, Evaluation benchmark, LLM-as-a-Judge, Semantic similarity, Multimodal models, Music understanding, Μεγάλα ακουστικά-γλωσσικά μοντέλα, Αξιολόγηση μουσικής εκτέλεσης, Πολυτροπικά μοντέλα, Σημασιολογική ομοιότητα, Κατανόηση μουσικής

Παραπομπή