Περίληψη : | Οι ψευδείς ειδήσεις είναι ένα φαινόμενο που έχει κάνει αισθητή τη παρουσία του τα τελευταία χρόνια και αποτελεί ένα από τα σημαντικότερα προβλήματα της νέας εποχής. Η εύρεση ενός έγκαιρου ,αξιόπιστου και οικονομικά αποδοτικού τρόπουεντοπισμού και ταξινόμησης των ψευδών ειδήσεων αποτελεί στόχο κρατών, οργανισμών και νεοφυών επιχειρήσεων ενώ φαίνεται να βρίσκεται και στις προτεραιότητες της ακαδημαϊκής έρευνας.Με την παρούσα Διπλωματική Εργασία έγινε μια προσπάθεια πρόβλεψης των ψευδών ειδήσεων που διακινούνται στο χώρο του διαδικτύου με σκοπό την ανεύρεση ενός αυτοματοποιημένου τρόπου ταξινόμησης των ειδήσεων σε ψευδείς και αληθείς,σύμφωνα με τις λέξεις του τίτλου των ειδήσεων.Για να επιτευχθεί αυτό έγινε χρήση των πεδίων της Επεξεργασίας Φυσικής Γλώσσας(Natural Language Processing) και της Μηχανικής/Στατιστικής Μάθησης(Machine/Statistical Learning) και συγκεκριμένα του υπόδειγματος Bag-OfWords(BoW), των μεθόδων εξαγωγής χαρακτηριστικών TF-IDF και N-grams καθώς και αυτών για τη μείωση των διαστάσεων των δεδομένων μέσω της Παραντοποίησης σε Ιδιάζουσες Τιμές(Singular Value Decomposition). Αυτή η διαδικασία είχε ως αποτέλεσμα τη δημιουργία 4 σετ δεδομένων, 2 εκ των οποίων χρησιμοποιήθηκαν στην μοντελοποίηση . Ακόμη, έγινε χρήση 5 Στατιστικών Μοντέλων Επιβλεπόμενης Μάθησης που εφαρμόστηκαν για την πρόβλεψη και είναι αυτά των, Δένδρων Αποφάσεων(Decision Trees), Random Forests, Μηχανών Διανυσμάτων Υποστήριξης(Support Vector Machines), Λογαριθμικής Παλινδρόμησης (LogisticRegression) και της Ταξινόμησης κατά Μπέυζ(Naïve Bayes).Το μοντέλο Στατιστικής Μάθησης που παρήγαγε τα καλύτερα αποτελέσματα είναι το Random Forest, με συνολική ακρίβεια στα δεδομένα ελέγχου που ανήλθε στο 88,1%. Τα δεδομένα ,στα οποία εφαρμόστηκε , προέκυψαν μετά τη χρήση της μέθοδου TF-IDF, σε ομάδες λέξεων ανά 2(bigrams) και Παραγοντοποίηση σε Ιδιάζουσες τιμές, με την προσθήκη των μεταβλητών για τον αριθμό των χαρακτήρων του τίτλου της είδησης και τον αριθμό των χαρακτήρων του κειμένου της είδησης. Fake news is a phenomenon that has taken hold in recent years and is an ever increasing problem in the new online age. A timely, reliable, and cost-effective way for detecting Fake News is crucial for countries, organizations, and startups.This work aims to predict and classify fake news based on the words of the title.Methods from Natural Language Processing and Machine / Statistical Learning were used such as Bag-Of-Words (BoW) model, TF-IDF, and N-grams as feature extraction technique and Singular Value Decomposition to reduce the dimensions of the data. This process resulted in 4 separate datasets, 2 of which were used for the modeling process. Moreover, 5 Supervised Learning Models were used for prediction namely Decision Trees, Random Forests, Support Vector Machines, Logistic Regression, and Naïve Bayes.The model, which gave the best results is Random Forest with an overall accuracy of 88.1% and was obtained after using the TF-IDF method, in groups of words per 2 (bigrams) and Singular Value Decomposition.
|
---|