Abstract : | Automatic speech recognition is a complex task in Natural Language Processing, and whilehumans do it effortlessly, machines have a harder time with it. Nowadays, the advent ofartificial intelligence and neural networks have improved our ability to tackle tasks likespeech recognition. Nevertheless, a serious disadvantage of such a task, is the difficultyof finding appropriate and sufficient data. In this thesis, we seek a solution to this issuefor Greek speech recognition systems, by exploring whether a cross-lingual approach canimprove these very systems. To achieve this, we exploit transfer learning, and particularlya powerful pre-trained model called wav2vec 2.0 XLSR. Trained on fifty-three languagesother than Greek, it serves as an effective way to observe if "knowledge" of foreign speechcan be used to help speech recognition systems with the Greek language. We also examinehow data availability affects our models, even when following a transfer learning strategy. Η αυτόματη αναγνώριση ήχου είναι ένα πολύπλοκο πρόβλημα της ΕπεξεργασίαςΦυσικής Γλώσσας, και ενώ οι άνθρωποι το αντιμετωπίζουν με ευκολία, οι υπολογιστέςδυσκολεύονται. Τη σήμερον ημέρα, ο ερχομός της τεχνητής νοημοσύνης και τωννευρωνικών δικτύων έχει βελτιώσει την ικανότητα μας να επιλύουμε προβλήματα όπωςη αναγνώριση ήχου. Παρ’ όλα αυτά, ένα σοβαρό μειονέκτημα ενός τέτοιουπροβλήματος είναι η δυσκολία εύρεσης κατάλληλων και επαρκών δεδομένων. Σε αυτήτη διπλωματική εργασία, αναζητούμε μία λύση σε αυτό το ζήτημα εστιάζοντας σεσυστήματα αναγνώρισης Ελληνικού λόγου, εξερευνώντας το αν μια πολυγλωσσικήπροσέγγιση μπορεί να τα καλυτερεύσει. Για να το πετύχουμε αυτό, εκμεταλλευόμαστετη μεταφερόμενη μάθηση (transfer learning), και συγκεκριμένα ένα ισχυρόπροεκπαιδευμένο μοντέλο που ονομάζεται wav2vec 2.0 XLSR. Όνταςπροεκπαιδευμένο σε πενήντα τρεις γλώσσες, μη συμπεριλαμβανομένων τωνΕλληνικών, αποτελεί έναν αποτελεσματικό τρόπο να διαπιστώσουμε εάν η «γνώση»ξενόγλωσσου λόγου μπορεί να χρησιμοποιηθεί ώστε να βελτιωθούν μοντέλαφτιαγμένα για να αναγνωρίζουν Ελληνικό λόγο. Επιπλέον, εξετάζουμε το πως ηδιαθεσιμότητα δεδομένων επηρεάζει τα μοντέλα μας, ακόμα και όταν αξιοποιείταικάποια τεχνική μεταφερόμενης μάθησης.
|
---|