Μεταπτυχιακές Εργασίες
Μόνιμο URI για αυτήν τη συλλογήhttps://pyxida.aueb.gr/handle/123456789/7
Περιήγηση
Πλοήγηση Μεταπτυχιακές Εργασίες ανά Συγγραφέα "Angelonidi, Despoinα"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 1 από 1
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Training and development of a table-to-text transformer-based model for contextual summarization of tabular data(07-03-2024) Αγγελονίδη, Δέσποινα; Angelonidi, Despoinα; Athens University of Economics and Business, Department of Informatics; Vassalos, Vasilios; Androutsopoulos, Ion; Louridas, PanagiotisΣτη σημερινή εποχή ο όγκος των δεδομένων αυξάνεται συνεχώς όσο ποτέ άλλοτε. 'Ενα µεγάλο μέρος αυτών των δεδομένων είναι δομημένο σε μορφή πίνακα. Πολλές φορές η διάσταση των πινάκων είναι εκτενής, περιλαμβάνοντας πληροφορίες που δεν ενδιαφέρουν τον αναγνώστη. Δεδομένου ότι οι επιχειρήσεις αποσκοπούν στην εξοικονόμηση χρόνου και πόρων, υπάρχει η επιτακτική ανάγκη να αυτοματοποιηθούν όσες περισσότερες διαδικασίες είναι εφικτό. Σκοπός της παρούσας διπλωματικής εργασίας είναι η παραγωγή περιλήψεων γραμμένων σε φυσική γλώσσα όπου παρέχουν στον χρήστη την πληροφορία που αναζητά. Για την παραγωγή των περιλήψεων εκπαιδεύτηκαν τρία μοντέλα σε δύο διαφορετικά datasets που υιοθετούν την αρχιτεκτονική των Transformers [Vas+17]. Συγκεκριμένα από την οικογένεια των Τ5 [Raf+19] επιλέχθηκαν το T5-small και το Τ5-base. Το τρίτο μοντέλο που χρησιμοποιήθηκε είναι το Bart-base [Lew+19]. Για την εκπαίδευση των μοντέλων, επιλέχθηκαν τα datasets ToTTo [Par+20] και QTSumm [Zha+23]. Στόχος του πρώτου είναι η παραγωγή µιας πρότασης η οποία περιλαμβάνει πληροφορία που περιέχεται σε υποδεδειγμένα κελιά. Αυτό έχει ως αποτέλεσμα να μειώνεται ο όγκος των περιττών πληροφοριών. Σκοπός του δεύτερου είναι η παραγωγή περιλήψεων μίας παραγράφου που απαντούν στο ερώτημα του χρήστη. Τα ερωτήματα μπορεί να περιλαμβάνουν απλές στοχευμένες περιλήψεις των πινάκων, συγκρίσεις μεταξύ τιμών, κα. Καθώς τα μοντέλα δέχονται τα δεδοµένα σε μορφή κειμένου, οι πίνακες πριν δοθούν στα μοντέλα µετασχηµατίστηϰαν χρησιμοποιώντας τη μέϑοδο των Chen et al. [Che+22]. ΄Όσον αφορά το ΤοΤΤο, τα ευρήματα υποδηλώνουν ότι οι παραλλαγές του Τ5 είναι ικανές να παράξουν πολύ καλές περιλήψεις για πίνακες που προέρχονται από την κατηγορία "Mixed Martial Arts Record", ενώ το Bart-base υπερτερεί στη δημιουργία περιλήψεων για πίνακες που εμπίπτουν στην κατηγορία "Demographics". Συνολικά, τα τρία μοντέλα ξεπέρασαν το benchmark. Συνεχίζοντας µε το QTSumm, τα αποτελέσματα φαίνεται να είναι παρόμοια µε αυτά του benchmark. Συγκριτικά µε το ΤοΤΤο, η απόδοση είναι χαμηλότερη, γεγονός που δεν προκαλεί εντύπωση καθώς το κείμενο που παράγεται είναι μεγαλύτερο σε έκταση και απαιτεί αυξημένο επίπεδο λογικής σκέψης.