Λογότυπο αποθετηρίου
 

A posteriori unimodality for LLM bias detection

Φόρτωση...
Μικρογραφία εικόνας

Ημερομηνία

2026-03-11

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Επιβλέπων / ουσα

Διαθέσιμο από

Περίληψη

Recent studies show that biases exhibited by Large Language Models are not random, but the result of systematic and interpretable socio-demographic annotator perspectives, often reflecting majority-group viewpoints. In this work, we investigate whether \acp{LLM} reproduce similar polarization and subgroup-specific alignment patterns to those observed in human annotations. Firstly, we examined whether \acp{LLM} can become polarized in the same way as humans. Our analysis shows that six widely used \acp{LLM} (ChatGPT, DeepSeek, Gemini, Mistral, Llama, Grok) tend to align more strongly with the judgement patterns of female, white, and left-leaning subgroups when annotating toxic content, whereas humans themselves appear to be more strongly polarized along ideological attributes rather than hereditary characteristics. Then, we introduced a framework that examines how model behaviour changes when prompts explicitly ask the model to adopt demographic or ideological identities. Instead of aiming to reduce bias, this approach intentionally exposes language models to the same social viewpoints that drive polarization in the human data. This allows us to check whether model alignment with human groups reflects repetitive internal patterns or bias that emerges only when identity adoption happens at the prompt level. Finally, we extend the A Posteriori Unimodality framework, originally used to attribute polarization to specific dimensions—to support an extensive set of attributes. This subset includes ideological dimensions (e.g., politics and traditionalism) and ordinal attributes. For those, we introduce a threshold-based analysis that allows polarization to be identified across ordered subgroups, which in this study applies to age. This extension preserves the dimension-based nature of A Posteriori Unimodality while enabling finer-grained subgroup analysis and direct comparison with model behaviour. \\\textcolor{red}{\textbf{Disclaimer:} This thesis contains examples of toxic, offensive, and unsafe language collected from real-world datasets, included exclusively for research purposes and not intended to promote or endorse such content.}
Πρόσφατες μελέτες δείχνουν ότι οι μεροληψίες που εμφανίζουν τα Μεγάλα Γλωσσικά Μοντέλα δεν είναι τυχαίες, αλλά αποτελούν αποτέλεσμα συστηματικών και ερμηνεύσιμων οπτικών των επισημειωτών, οι οποίες συχνά αντανακλούν τις αντιλήψεις ομάδων πλειοψηφίας. Στην παρούσα εργασία, ερευνούμε κατά πόσο τα Μεγάλα Γλωσσικά Μοντέλα αναπαράγουν παρόμοια πρότυπα πόλωσης και ευθυγράμμισης σε επίπεδο υποομάδων με εκείνα που παρατηρούνται στις ανθρώπινες επισημειώσεις. Αρχικά, εξετάζουμε κατά πόσο τα Μεγάλα Γλωσσικά Μοντέλα μπορούν να εμφανίσουν πόλωση με τρόπο αντίστοιχο των ανθρώπων. Η ανάλυσή μας δείχνει ότι έξι ευρέως χρησιμοποιούμενα Μεγάλα Γλωσσικά Μοντέλα (\textlatin{ChatGPT, DeepSeek, Gemini, Mistral, Llama, Grok}) τείνουν να ευθυγραμμίζονται περισσότερο με τα μοτίβα κρίσης που παρατηρούνται σε υποομάδες όπως γυναίκες, λευκοί και άτομα με αριστερό πολιτικό προσανατολισμό κατά την επισημείωση τοξικού περιεχομένου. Αντίθετα, στους ανθρώπους η πόλωση φαίνεται να συνδέεται πιο έντονα με ιδεολογικά χαρακτηριστικά και γενικότερα δημογραφικές διαστάσεις, παρά με σταθερά βιολογικά γνωρίσματα. Στη συνέχεια, εισάγουμε ένα πλαίσιο που εξετάζει πώς μεταβάλλεται η συμπεριφορά των μοντέλων όταν ζητείται ρητά από το μοντέλο να υιοθετήσει συγκεκριμένες δημογραφικές ή ιδεολογικές ταυτότητες. Αντί να στοχεύει άμεσα στη μείωση της μεροληψίας, η προσέγγιση αυτή εκθέτει σκόπιμα τα μοντέλα στις ίδιες κοινωνικές οπτικές που σχετίζονται με την πόλωση στα ανθρώπινα δεδομένα. Με τον τρόπο αυτό μπορούμε να ελέγξουμε αν η ευθυγράμμιση των μοντέλων με ανθρώπινες ομάδες αντανακλά σταθερά εσωτερικά μοτίβα ή αν προκύπτει κυρίως όταν ζητείται ρητά η υιοθέτηση ταυτότητας. Τέλος, επεκτείνουμε το πλαίσιο του \textlatin{A Posteriori Unimodality}, το οποίο αρχικά χρησιμοποιήθηκε για την εξήγηση της πόλωσης σε συγκεκριμένες διαστάσεις. Ο λόγος της επέκτασης ήταν η υποστήριξη ένός ευρύτερου σύνολου χαρακτηριστικών, συμπεριλαμβανομένων ιδεολογικών διαστάσεων (π.χ. πολιτική τοποθέτηση και στάση απέναντι στην παράδοση) καθώς και διατεταγμένών χαρακτηριστικών (\textlatin{ordinal}). Όσον αφορά τα τελευταία, εισάγουμε μια ανάλυση βασισμένη σε κατώφλια που επιτρέπει τον εντοπισμό πόλωσης μεταξύ διατεταγμένων υποομάδων, η οποία εφαρμόζεται στη μελέτη της μεταβλητής της ηλικίας. Η επέκταση αυτή για τις διατεταγμένες μεταβλητές διατηρεί τη διαστασιοκεντρική φύση του \textlatin{A Posteriori Unimodality} ενώ παράλληλα επιτρέπει πιο λεπτομερή ανάλυση υποομάδων και άμεση σύγκριση με τη συμπεριφορά των μοντέλων.

Περιγραφή

Λέξεις-κλειδιά

Polosis, Large langage models, Bias detection, Alignment analysis, Toxicity ordering, Πόλωση, Μεγάλα γλωσσικά μοντέλα, Εντοπισμός μεροληψίας, Ανάλυση ευθυγράμμισης, Ταξινόμηση τοξικότητας

Παραπομπή