PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :Hedge detection: an application on the wikipedia corpus
Creator :Agapiou, Marios
Αγαπίου, Μάριος
Contributor :Louridas, Panagiotis (Επιβλέπων καθηγητής)
Chatziantoniou, Damianos (Εξεταστής)
Spinellis, Diomidis (Εξεταστής)
Athens University of Economics and Business, Department of Management Science and Technology (Degree granting institution)
Type :Text
Extent :58p.
Language :en
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8952
Abstract :The purpose of this thesis is to develop a system that automatically detects hedges in Wikipedia articles, using weasel tags. The motivation behind this research project was to tackle the issue of ambiguity in Wikipedia articles, which could lead to the promo-tion of misleading information to the reader. This paper provides the general over-view of this task, including the extraction of the data, the classification methods that were used, as well as the evaluation metrics employed to examine the overall perfor-mance of these methods. In this thesis we experimented with machine and deep learn-ing models to apply the text classification. We implemented Support Vector Machine and XGBoost classifiers, and developed neural networks, such as Convolutional Neu-ral Networks (CNNs) and Recurrent Neural Networks (RNNs) with Long short-term memory (LSTM) architecture to complete this task. We then evaluated these systems against the best performing systems from previous studies that focus on this issue. Overall, we achieved notable results on our dataset, surpassing most hedge detection systems from previous studies, and thus proving the effectiveness of our methods.
Σκοπός αυτής της διατριβής είναι να αναπτυχθεί ένα σύστημα που ανιχνεύει αυτόματα αμφισημίες σε άρθρα της Βικιπαίδειας, χρησιμοποιώντας ετικέτες weasel. Το κίνητρο πίσω από αυτό το ερευνητικό έργο ήταν να αντιμετωπιστεί το θέμα της ασάφειας στα άρθρα της Βικιπαίδειας, που θα μπορούσε να οδηγήσει στην προώθηση παραπλανητικών πληροφοριών στον αναγνώστη. Το παρόν έγγραφο παρέχει τη γενική επισκόπηση αυτού του έργου, συμπεριλαμβανομένης της εξαγωγής των δεδομένων, των μεθόδων κατηγοριοποίησης που χρησιμοποιήθηκαν, καθώς και των μετρήσεων αξιολόγησης που εφαρμόστηκαν για την εξέταση της συνολικής απόδοσης αυτών των μεθόδων. Σε αυτή τη διατριβή πειραματιστήκαμε με μοντέλα τόσο μηχανικής όσο και βαθιάς Μάθησης για να εφαρμόσουμε την ταξινόμηση κειμένου. Υλοποιήσαμε Support Vector Machine και XGBoost ταξινομητές, και αναπτύξαμε νευρωνικά δίκτυα, όπως τα Convolutional Neural Networks (CNNs) και τα Reccurent Neural Networks (RNNs) με αρχιτεκτονική Long short-term memory (LSTM) για την ολοκλήρωση αυτής της εργασίας. Στη συνέχεια, αξιολογούμε αυτά τα συστήματά συγκριτικά με τα καλύτερα συστήματα από προηγούμενες μελέτες που εστιάζουν σε αυτό το ζήτημα. Συνολικά, πετύχαμε αξιοσημείωτα αποτελέσματα, ξεπερνώντας τα περισσότερα συστήματα ανίχνευσης αμφισημιών από προηγούμενες μελέτες, αποδεικνύοντας έτσι την αποτελεσματικότητα των μεθόδων μας.
Subject :Deep learning
Hedge detection
Natural language processing
Βαθιά μάθηση
Ανίχνευση αμφισημιών
Επεξεργασία φυσικής γλώσσας
Date Available :2021-11-26 17:28:49
Date Issued :2020
Date Submitted :2021-11-26 17:28:49
Access Rights :Free access
Licence :

File: Agapiou_2021.pdf

Type: application/pdf