Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Cross-lingual adaptation in automatic speech recognition

Μικρογραφία εικόνας

Ημερομηνία

12/04/2021

Συγγραφείς

Gkouzias, Thomas
Γκούζιας, Θωμάς

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέπων

Διαθέσιμο από

2022-01-10 22:47:39

Περίληψη

Automatic speech recognition is a complex task in Natural Language Processing, and whilehumans do it effortlessly, machines have a harder time with it. Nowadays, the advent ofartificial intelligence and neural networks have improved our ability to tackle tasks likespeech recognition. Nevertheless, a serious disadvantage of such a task, is the difficultyof finding appropriate and sufficient data. In this thesis, we seek a solution to this issuefor Greek speech recognition systems, by exploring whether a cross-lingual approach canimprove these very systems. To achieve this, we exploit transfer learning, and particularlya powerful pre-trained model called wav2vec 2.0 XLSR. Trained on fifty-three languagesother than Greek, it serves as an effective way to observe if "knowledge" of foreign speechcan be used to help speech recognition systems with the Greek language. We also examinehow data availability affects our models, even when following a transfer learning strategy.
Η αυτόματη αναγνώριση ήχου είναι ένα πολύπλοκο πρόβλημα της ΕπεξεργασίαςΦυσικής Γλώσσας, και ενώ οι άνθρωποι το αντιμετωπίζουν με ευκολία, οι υπολογιστέςδυσκολεύονται. Τη σήμερον ημέρα, ο ερχομός της τεχνητής νοημοσύνης και τωννευρωνικών δικτύων έχει βελτιώσει την ικανότητα μας να επιλύουμε προβλήματα όπωςη αναγνώριση ήχου. Παρ’ όλα αυτά, ένα σοβαρό μειονέκτημα ενός τέτοιουπροβλήματος είναι η δυσκολία εύρεσης κατάλληλων και επαρκών δεδομένων. Σε αυτήτη διπλωματική εργασία, αναζητούμε μία λύση σε αυτό το ζήτημα εστιάζοντας σεσυστήματα αναγνώρισης Ελληνικού λόγου, εξερευνώντας το αν μια πολυγλωσσικήπροσέγγιση μπορεί να τα καλυτερεύσει. Για να το πετύχουμε αυτό, εκμεταλλευόμαστετη μεταφερόμενη μάθηση (transfer learning), και συγκεκριμένα ένα ισχυρόπροεκπαιδευμένο μοντέλο που ονομάζεται wav2vec 2.0 XLSR. Όνταςπροεκπαιδευμένο σε πενήντα τρεις γλώσσες, μη συμπεριλαμβανομένων τωνΕλληνικών, αποτελεί έναν αποτελεσματικό τρόπο να διαπιστώσουμε εάν η «γνώση»ξενόγλωσσου λόγου μπορεί να χρησιμοποιηθεί ώστε να βελτιωθούν μοντέλαφτιαγμένα για να αναγνωρίζουν Ελληνικό λόγο. Επιπλέον, εξετάζουμε το πως ηδιαθεσιμότητα δεδομένων επηρεάζει τα μοντέλα μας, ακόμα και όταν αξιοποιείταικάποια τεχνική μεταφερόμενης μάθησης.

Περιγραφή

Λέξεις-κλειδιά

Automatic speech recognition, Natural language processing, Cross-lingual approach, Transfer learning, Αυτόματη αναγνώριση ήχου, Επεξεργασία φυσικής γλώσσας, Πολυγλωσσική προσέγγιση, Μεταφερόμενη μάθηση

Παραπομπή

Άδεια Creative Commons