PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :A study of machine learning models for fake news classification
Alternative Title :Μελέτη μοντέλων μηχανικής μάθησης για πρόβλεψη ψευδών ειδήσεων
Creator :Σπανού, Αθηνά
Spanou, Athina
Contributor :Karlis, Dimitrios (Επιβλέπων καθηγητής)
Ntzoufras, Ioannis (Εξεταστής)
Chatziantoniou, Damianos (Εξεταστής)
Athens University of Economics and Business, Department of Management Science and Technology (Degree granting institution)
Type :Text
Extent :82p.
Language :en
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10045
Abstract :"Η ψευδή είδηση είναι μια επινοημένη ιστορία για να εξαπατήσει ή να παραπλανήσει". Οι ψευδές ειδήσεις έχουν γίνει μείζον ζήτημα τα τελευταία χρόνια, ιδιαίτερα στις πλατφόρμες μέσων κοινωνικής δικτύωσης, καθώς και σε άλλες διαδικτυακές πηγές, όπως ιστότοπους και ιστολόγια. Ο πολλαπλασιασμός ψευδών πληροφοριών σε μέσα καθημερινής πρόσβασης, όπως ροές μέσων κοινωνικής δικτύωσης, ειδησεογραφικά ιστολόγια και διαδικτυακές εφημερίδες, έχει καταστήσει δύσκολο τον εντοπισμό αξιόπιστων πηγών ειδήσεων, αυξάνοντας τη ζήτηση για υπολογιστικά εργαλεία που μπορούν να παρέχουν πληροφορίες για την αξιοπιστία του διαδικτυακού περιεχομένου. Δεν υπάρχουν, σήμερα, κατάλληλα πλαίσια για την αντιμετώπιση των ψευδών ειδήσεων. Η προτεινόμενη μελέτη διερευνά διάφορες τεχνικές μηχανικής μάθησης για τον εντοπισμό και την ανάλυση ψευδών ειδήσεων. Σε αυτό το άρθρο, μελετάμε τη χρήση μεθόδων μηχανικής μάθησης για πρόβλεψη ψευδών ειδήσεων. Η μελέτη μας εξετάζει διάφορες μεθόδους, όπως Term Frequency-Inverse Document Frequency (TF-IDF) για εξαγωγή χαρακτηριστικών, που μπορεί να χρησιμοποιηθεί για τη διάκριση μεταξύ πραγματικού και πλαστού περιεχομένου. Εκπαιδεύουμε διαφορετικούς αλγόριθμους μηχανικής μάθησης χρησιμοποιώντας διάφορους πειραματισμούς και αξιολογούμε την απόδοσή τους σε ένα πραγματικό σύνολο δεδομένων. Το σύνολο δεδομένων αποτελείται από μιας δεκαετίας, δώδεκα χιλιάδες οκτακόσιες σύντομες δηλώσεις σε διάφορα θέματα από το POLITIFACT.COM. Οι σύντομες δηλώσεις χαρακτηρίζονται από το βαθμό αλήθειας τους, το θέμα, το πλαίσιο/τόπο διεξαγωγής, τον ομιλητή, την κατάσταση, το κόμμα και προηγούμενη ιστορία. Έχουν ληφθεί υπόψη έξι λεπτομερείς ετικέτες για την αξιολογήση της αληθειας. Η κατανομή των ετικετών στο σύνολο δεδομένων είναι σχετικά καλά ισορροπημένη. Για να αντιμετωπιστεί αυτό το πρόβλημα πρόβλεψης πολλαπλών τάξεων, αναπτύχθηκαν τρία διαφορετικά μοντέλα πρόβλεψης (Logistic Regression, Naïve Bayes, Random Forest) και στη συνέχεια αξιολογήθηκαν βάση accuracy, precision, recall, area under the curve score, and F1-score. Οι προτιμώμενες μετρήσεις για τον στόχο της πρόβλεψης ψεύτικων ειδήσεων είναι οι accuracy και f1-score. Τα αποτελέσματά μας δείχνουν ότι ο βέλτιστος classifier για την πρόβλεψη των ψευδών ειδήσεων είναι ο Random Forest.
"Fake News is a made-up story to deceive or to mislead". Fake News has become a major issue in recent years, particularly on social media platforms, as well as other online sources such as websites and blogs. The proliferation of false information in everyday access media outlets such as social media feeds, news blogs, and online newspapers has made it difficult to identify reliable news sources, increasing the demand for computational tools that can provide insights into the reliability of online content. There are no proper frameworks in place to deal with fake news. The proposed study investigates various machine learning techniques for detecting and analyzing fake news. In this paper, we study the use of machine learning methods for fake news article classification. Our study investigates various methods, such as Term Frequency-Inverse Document Frequency (TF-IDF) as feature extraction, that can be used to distinguish between real and fake content. We train different machine learning algorithms using various experimentations and evaluate their performance on a real-world dataset. The dataset consists of a decade-long, twelve thousand eight hundred manually labeled short statements in various contexts from POLITIFACT.COM, which provides a detailed analysis report and links to source documents for each case. The short statements are labeled for truthfulness, subject, context/venue, speaker, state, party, and prior history. There have been considered six fine-grained labels for the truthfulness ratings. The distribution of labels in the dataset is relatively well-balanced. To address this multiclass classification problem, three different classification models (Logistic Regression, Naïve Bayes, Random Forest) were developed and then evaluated in terms of accuracy, precision, recall, area under the curve score, and F1-score. The preferred metrics for the goal of fake news classification are accuracy and f1-score. Our results indicate that the optimal classifier for classifying fake news is Random Forest.
Subject :Πρόβλεψη ψευδών ειδήσεων
Μηχανική μάθηση
Ταξινόμηση πολλαπλών κλάσεων
Επεξεργασία φυσικής γλώσσας
Fake news prediction
Machine learning (ML)
Multiclass classification
Natural Language Processing (NLP)
Date Available :2023-02-16 12:58:41
Date Issued :31-08-2022
Date Submitted :2023-02-16 12:58:41
Access Rights :Free access
Licence :

File: Spanou_2022.pdf

Type: application/pdf