Abstract : | Στην παρούσα διπλωματική εργασία διερευνούμε αυτόματα μέτρα αξιολόγησης της ποιότητας και του περιεχομένου περιλήψεων άρθων από διαφορετικές θεματικές περιοχές, οι οποίες έχουν παραχθεί αυτόματα. Ο στόχος αυτής της μελέτης είναι να προτείνουμε ένα μέτρο αξιολόγησης το οποίο θα μπορεί να χρησιμοποιηθεί από κάθε χρήστη που επιθυμεί να αξιολόγηση την ποιότητα μίας αυτόματης περίληψης, όσον αφορά τόσο στη διατήρηση του περιεχομένου του πρωτότυπου κειμένου, όσο τα ποιτικά και γλωσσικά της χαρακτηριστικά. Επιπρόσθετα, στόχος μας είναι το προτεινόμενο μέτο αξιολόγησης να μπορεί να δώσει ικανοποιητικά αποτελέσματα χωρίς την ανάγκη πρόσβασης σε περιλήψεις που έχουν γραφτεί από ανθρώπους. Αρχικά, αναλύουμε τα υπάρχοντα και ευρέως χρησιμοποιούμενα μέτρα αξιολόγησης και αναλύουμε τις αδυναμίες που μπορεί να παρουσιάζουν. Εξετάζουμε τη διαδικασία αξιολόγησης περιλήψεων σε περιλήψεις που προέρχονται από μοντέλα διαφόρων ειδών. Αναπτύσσουμε μέτρα αξιολόγησης τα οποία εξετάζουμε σε βιοϊατρικά δεδομένα και δεδομένα ειδήσεων, συγκρίνοντάς τα με άλλα κορυφαία (state-of-the-art) μέτρα υπολογίζοντας πόσο απέχουν οι εκτιμήσεις τους τους από τις ανθρώπινες αξιολογήσεις και πόσο καλά μπορούν να συσχετιστούν με αυτές. In this thesis, we experiment with automatic quality and content evaluation measures for summaries produced from articles of different domains that have been automatically summarized. The ultimate goal is to propose an evaluation measure that can be used by users who want to assess how good a system summary is in terms of quality and content preservation, compared to the original document(s), without the need for human-written references. First, we consider the existing and commonly used metrics for summary evaluation and the limitations they have. Generally, we investigate the evaluation task for summaries generated by different types of models. We develop measures that we evaluate on biomedical and news summaries, we compare them with other state-of-the-art measures and explore their correlations alongside the absolute error with respect to human judgments of summary quality.
|
---|