Abstract : | In this work, an investigation to the aspect based sentiment analysis is performed with the implementation of the classical algorithm of Hu & Liu that’s presented in their paper “Mining Opinion Features in Customer Reviews”. Along with the related Apriori algorithm that’s embedded in the process, each step of the algorithm is explained in detail highlighting on the functionality of each part. Every phase of the process that was earlier explained is discussed again, commenting on the encountered problems and proposing solutions as additions and modifications to the original algorithm. Furthermore a web user interface was developed that allows the customization of several parameters and helps in the visualization of the results and evaluation measures. The evaluation phase is based on the datasets provided by H&L and datasets from the SemEval workshop 2014. Apart the common metrics (recall, precision) used, a new metric was introduced, namely the Cumulative Distance Discount Gain (CDDG) a metric that, measures the similarity between two ranked lists of results. Finally the evaluation results and the preferred configuration parameters are discussed, commenting on various observations and proposing some thoughts for future work. Σε αυτή την εργασία, γίνεται μια έρευνα στον επιστημονικό χώρο της εξαγωγής συναισθήματος από κοινωνικά δίκτυα μέσω της υλοποίησης του κλασικού αλγορίθμου των Hu & Liu που παρουσιάζεται στο paper “Mining Opinion Features in Customer Reviews”. Συμπεριλαμβανομένου του αλγορίθμου Apriori που είναι ενσωματωμένος ως τμήμα της διαδικασίας, κάθε βήμα του αλγορίθμου αναλύεται λεπτομερώς εστιάζοντας στην λειτουργικότητα του κάθε τμήματος. Όλα τα μέρη της διαδικασίας που αναλύθηκαν σχολιάζονται ξανά, δίνοντας έμφαση στα προβλήματα που παρουσιάστηκαν κατά την υλοποίηση και προτείνοντας λύσεις γι’ αυτά ως μετατροπές και προσθήκες στον αρχικό αλγόριθμο. Επιπλέον δημιουργήθηκε μια διαδικτυακή διεπαφή η οποία επιτρέπει την αλλαγή των τιμών διαφόρων παραμέτρων και βοηθά στην οπτικοποίηση των αποτελεσμάτων και των μετρικών αξιολόγησης. Η αξιολόγηση των αποτελεσμάτων βασιστηκε σε δεδομένα που παρείχαν οι H&L και το SemEval workshop 2014. Εκτός από τις γνωστές μετρικές (recall, precision) που υπολογίστηκαν, προτείνεται και μια νέα μετρική, το Cumulative Distance Discount Gain (CDDG), όπου εκτιμά την ομοιότητα μεταξύ δυο λιστών αποτελεσμάτων σε σειρά κατάταξης. Τέλος γίνεται σχολιασμών των αποτελεσμάτων και των παραμετρικών τιμών, και παρατίθενται σκέψεις για περεταίρω βελτιώσεις και μελλοντική δουλειά.
|
---|