Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Greek text-to-speech

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsen
dc.contributor.opponentVassalos, Vasiliosen
dc.contributor.opponentMalakasiotis, Prodromosen
dc.contributor.thesisadvisorAndroutsopoulos, Ionen
dc.creatorMatrapazis, Anastasiosen
dc.creatorΜατραπάζης, Αναστάσιοςel
dc.date.accessioned2025-03-26T20:02:46Z
dc.date.available2025-03-26T20:02:46Z
dc.date.issued12/04/2021
dc.date.submitted2021-12-24 17:34:41
dc.description.abstractText-to-Speech (TTS) is a technology able to read aloud digital text. Nowadays, there has been significant progress in many applications, from virtual assistance and customer services to technologies that help people who struggle with reading. This study aims to train and evaluate a TTS deep learning model in the Greek language trying to copy the voice of a well-known Greek actress keeping the naturalness of the output speech. Our goal is to produce the actress's accent, making the output as identifiable as possible. Recent research has shown how TTS can be successfully addressed as a sequence-to-sequence (seq2seq) task followed by a vocoder. The seq2seq model predicts Mel-Spectrograms, a representation of the input in the frequency domain per time frame, given a text. Having a Mel-Spectrogram layout, the vocoder model synthesizes the time-domain waveform. This study is focused on training the auto-regressive Tacotron 2 implementation for the seq2seq task and the WaveGlow model for the vocoder. With the objective of simulating the actress’s voice, we collected our data samples from a podcast she hosted. Having the audio samples, we organized the dataset in the form of <text-audio sample> pairs. After the training process, our model achieved 3.48 MOS (Mean Opinion Score). Our Greek TTS model also accomplished 81% voice similarity with the original podcast hostess.en
dc.description.abstractΜία από τις τεχνολογίες που συμβάλλουν στην επικοινωνία του ανθρώπου με τη μηχανή είναι τα μοντέλα μετατροπής κειμένου για ομιλία (Text-to-Speech, TTS). Ενδεικτικά παραδείγματα εφαρμογών της τεχνολογίας αυτής είναι οι ψηφιακοί βοηθοί και τα εργαλεία ανάγνωσης κειμένου σε ανθρώπους με μαθησιακές δυσκολίες. Στην παρούσα εργασία, εκπαιδεύουμε ένα μοντέλο TTS για τα Ελληνικά, ώστε η παραγόμενη φωνή να μοιάζει με εκείνη της γνωστής Ελληνίδας ηθοποιού. Πρόσφατες έρευνες έχουν δείξει πώς συστήματα TTS μπορούν να αναπτυχθούν επιτυχώς συνδυάζοντας ένα μοντέλο βαθιάς μάθησης ακολουθία-σε-ακολουθία (sequence-to-sequence, seq2seq) και ένα μοντέλο vocoder. Το πρώτο μοντέλο παράγει παραστάσεις στο πεδίο της συχνότητας (Mel-Spectrograms) για κάθε χρονικό παράθυρο (time frame), δεδομένης μιας ακολουθίας λέξεων. Στη συνέχεια, το δεύτερο μοντέλο (vocoder) αναλαμβάνει τη σύνθεση των κυματομορφών του ήχου. Στην υλοποίησή μας, χρησιμοποιούμε τη μεθοδολογία του Tacotron 2 για την παραγωγή των Mel-Spectrograms και την υλοποίηση του WaveGlow ως vocoder για την τελική εξαγωγή της κυματομορφής.el
dc.embargo.expire2021-12-24 17:34:41
dc.embargo.ruleOpen access
dc.format.extent59p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8988
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/10475
dc.languageen
dc.rightsCC BY: Attribution alone 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectText To Speech (TTS)en
dc.subjectTacotronen
dc.subjectTacotron 2en
dc.subjectGreek Text To Speechen
dc.subjectΕλληνικό κείμενο σε ομιλίαel
dc.subjectΚείμενο σε ομιλίαen
dc.titleGreek text-to-speechen
dc.title.alternativeΕλληνικό κείμενο-σε-ομιλίαel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Matrapazis_2021.pdf
Μέγεθος:
7.46 MB
Μορφότυπο:
Adobe Portable Document Format