Περίληψη : | Η παρούσα διπλωματική εργασία εξετάζει τον τρόπο με τον οποίο αξιολογούνται οι διαδικτυακές συζητήσεις μέσω δύο προσεγγίσεων: μια συστηματική έρευνα των μετρικών αξιολόγησης και μια πειραματική σύγκριση μεταξύ ανθρώπων - αξιολογητών και Μεγάλων Γλωσσικών Μοντέλων (ΜΓΜ). Η βιβλιογραφική επισκόπηση εντοπίζει 22 διακριτές μετρικές, οι οποίες κατηγοριοποιούνται σε ομάδες Δομής και Λογικής, Κοινωνικής Δυναμικής, Συναισθηματικής και Συμπεριφορικής, και Δέσμευσης και Περιεχομένου. Ενώ οι μετρικές που βασίζονται στη δομή επιχειρημάτων και στην πραγματολογία αναδεικνύονται ως οι πιο συχνά μελετημένες, η ανάλυση αποκαλύπτει μια αυξανόμενη εστίαση στα κοινωνικά και συγκυριακά στοιχεία στην αξιολόγηση συνομιλιών στην πρόσφατη βιβλιογραφία.Η πειραματική μελέτη συγκρίνει τον τρόπο με τον οποίο οι άνθρωποι και τα ΜΓΜ αξιολογούν τις ίδιες διαδικτυακές συζητήσεις, αποκαλύπτοντας βασικές διαφορές στα πρότυπα αξιολόγησής τους. Οι ανθρώπινοι αξιολογητές επιδεικνύουν μεγαλύτερη ευαισθησία στην κοινωνική δυναμική, ιδίως στον εντοπισμό αρνητικών συμπεριφορών όπως η αγένεια και η κυριαρχία, ενώ τα ΜΓΜ υπερέχουν στον εντοπισμό δομικών στοιχείων αλλά συχνά παραβλέπουν αυτές τις λεπτές κοινωνικές ενδείξεις. Τα ευρήματα αναδεικνύουν ένα σημαντικό χάσμα μεταξύ υπολογιστικών και ανθρώπινων προσεγγίσεων στην αξιολόγηση συνομιλιών, γεγονός που υποδηλώνει ότι τα αποτελεσματικά πλαίσια αξιολόγησης πρέπει να εξισορροπούν και τις δύο οπτικές γωνίες για να αποτυπώσουν την πλήρη πολυπλοκότητα των διαδικτυακών συζητήσεων.Η παρούσα έρευνα συμβάλλει στην κατανόηση της αξιολόγησης των διαδικτυακών συνομιλιών με τη συστηματική χαρτογράφηση των υφιστάμενων μετρικών και την επίδειξη του τρόπου με τον οποίο οι διαισθητικές αξιολογήσεις των καθημερινών αναγνωστών διαφέρουν από τις υπολογιστικές προσεγγίσεις. Οι γνώσεις αυτές έχουν πρακτικές επιπτώσεις για την ανάπτυξη αποτελεσματικότερων εργαλείων αξιολόγησης συνομιλιών και τη βελτίωση των συστημάτων συντονισμού διαδικτυακών κοινοτήτων. This thesis examines how online discussions are evaluated through two approaches: a systematic survey of evaluation metrics and an experimental comparison between human evaluators and Large Language Models (LLMs). The literature review identifies 22 distinct metrics, categorized into Structure and Logic, Social Dynamics, Emotional and Behavioral, and Engagement and Content groups. While Argument Structure and Pragmatic-based metrics emerge as the most frequently studied, the analysis reveals an increasing focus on social and contextual elements in conversation evaluation across recent literature.The experimental study compares how humans and LLMs assess the same online discussions, revealing key differences in their evaluation patterns. Human evaluators demonstrate greater sensitivity to social dynamics, particularly in detecting negative behaviors like rudeness and dominance, while LLMs excel at identifying structural elements but often overlook these subtle social cues. The findings highlight a significant gap between computational and human approaches to conversation assessment, suggesting that effective evaluation frameworks must balance both perspectives to capture the full complexity of online discussions.This research contributes to our understanding of online conversation evaluation by systematically mapping existing metrics and demonstrating how everyday readers' intuitive assessments differ from computational approaches. These insights have practical implications for developing more effective conversation assessment tools and improving online community moderation systems.
|
---|