Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο


Συλλογές	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Διοίκησης Επιχειρήσεων / School of Business Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας / Department of Management Science and Technology Μεταπτυχιακές Εργασίες / Postgraduate dissertations
Τίτλος	Fact checking science journalism
Εναλλακτικός τίτλος	Έλεγχος γεγονότων στην επιστημονική δημοσιογραφία
Δημιουργός	Καλλαράς Χρήστος, Kallaras, Christos
Συντελεστής	Athens University of Economics and Business, Department of Management Science and Technology Chatziantoniou, Damianos Karlis, Dimitrios Papageorgiou, Haris
Τύπος	Text
Φυσική περιγραφή	84p.
Γλώσσα	en
Αναγνωριστικό	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10563
Περίληψη	In today's digital age, information is readily available at our fingertips, and the challenge lies in determining the credibility and authenticity of this information. With the exponential growth of social media and the internet, misinformation and fake news have become rampant, leading to an increase in public confusion and mistrust. Consequently, detecting claims and identifying the claimer has become a crucial task in natural language processing, which can aid in reducing the spread of misinformation and increase trust. This thesis presents a study on claim detection and claimer identification, which aims to automatically detect claims and determine their claimers in textual data. The work is inspired by the NewsClaim benchmark, which focuses on claim detection in news articles. I extend this work by training the natural language model used by the paper, namely an adversarial BERT model, on a dataset of 1500 articles related to climate and health, which allowed us to detect claims with high accuracy. Furthermore, I present an analysis of two established datasets and a new annotated dataset based on health and food domains. The goal is to predict the claimer of a claim and for that I trained four models, namely RoBERTa, DistilBERT, BART, and ALBERT trained on the aforementioned datasets. My experiments show that the DistilBERT model had the best performance on the first two datasets, but its performance was poor on the annotated dataset due to the small size of the dataset. Overall, this thesis aims to contribute to the development of effective question answering models for claimer detection, with potential applications in fields such as journalism and fact-checking. Στη σημερινή ψηφιακή εποχή, οι πληροφορίες είναι άμεσα διαθέσιμες στα χέρια μας και η πρόκληση έγκειται στον προσδιορισμό της αξιοπιστίας και της αυθεντικότητας αυτών των πληροφοριών. Με την ανάπτυξη των μέσων κοινωνικής δικτύωσης και του διαδικτύου, η παραπληροφόρηση και οι ψεύτικες ειδήσεις έχουν γίνει ανεξέλεγκτες, οδηγώντας σε σύγχυση το κοινό και αύξηση της δυσπιστίας. Κατά συνέπεια, ο εντοπισμός βάσιμων ισχυρισμών και ο εντοπισμός του ατόμου ή της οντότητας που το ισχυρίστηκε έχει καταστεί κρίσιμο έργο στον τομέα της επεξεργασία φυσικής γλώσσας, το οποίο μπορεί να βοηθήσει στη μείωση της διάδοσης παραπληροφόρησης και στην αύξηση της εμπιστοσύνης. Στην παρούσα μεταπτυχιακή διπλωματική παρουσιάζεται μια μελέτη σχετικά με τον εντοπισμό ισχυρισμών και των ατόμων ή της οντότητας που το ισχυρίστηκαν, η οποία στοχεύει στον αυτόματο εντοπισμό τους σε δεδομένα κειμένου. Η εργασία είναι εμπνευσμένη από το NewsClaim benchmark, το οποίο εστιάζει στον εντοπισμό ισχυρισμών σε άρθρα ειδήσεων. Επεκτείνω αυτήν την εργασία εκπαιδεύοντας το μοντέλο φυσικής γλώσσας που χρησιμοποιείται από την εργασία, δηλαδή ένα μοντέλο adversarial BERT, σε ένα σύνολο δεδομένων 1500 άρθρων που σχετίζονται με το κλίμα και την υγεία, το οποίο μας επέτρεψε να εντοπίσουμε ισχυρισμούς με υψηλή ακρίβεια. Επιπλέον, παρουσιάζω μια ανάλυση δύο υφιστάμενων συνόλων δεδομένων και ενός νέου που βασίζεται στους τομείς της υγείας και των τροφίμων. Ο στόχος είναι να προβλέψω ποιος έκανε έναν ισχυρισμό και για αυτό εκπαίδευσα τέσσερα μοντέλα, τα RoBERTa, DistilBERT, BART και ALBERT στα προαναφερθέντα σύνολα δεδομένων. Τα πειράματά μου δείχνουν ότι το μοντέλο DistilBERT είχε την καλύτερη απόδοση στα δύο πρώτα σύνολα δεδομένων, αλλά η απόδοσή του ήταν κακή στο καινούργιο λόγω του μικρού όγκου των δεδομένων. Τα ευρήματα και τα μοντέλα αυτής της έρευνας στοχεύουν στο να συμβάλουν στην ανάπτυξη αποτελεσματικών μοντέλων ερώτησης-απάντησης, με πιθανές εφαρμογές σε τομείς όπως η δημοσιογραφία και ο έλεγχος γεγονότων.
Λέξη κλειδί	Επεξεργασία φυσικής γλώσσας Ανίχνευση ισχυρισμού Μηχανική μάθηση Ανίχνευση ατόμου που έκανε ισχυρισμό Δημοσιογραφία Claimer detection Machine learning (ML) Natural Language Processing (NLP) Claim detection Journalism
Διαθέσιμο από	2023-05-29 23:47:46
Ημερομηνία έκδοσης	31-03-2023
Ημερομηνία κατάθεσης	2023-05-29 23:47:46
Δικαιώματα χρήσης	Free access
Άδεια χρήσης	https://creativecommons.org/licenses/by/4.0/