PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :Disambiguation and entity linking of research methods in academic literature
Alternative Title :Αποσαφήνιση και σύνδεση ονομάτων ερευνητικών μεθόδων σε ακαδημαϊκά συγγράμματα
Creator :Καπράλος, Ραφαήλ-Νικόλαος
Kapralos, Rafail-Nikolaos
Contributor :Pertsas, Vayianos (Επιβλέπων καθηγητής)
Constantopoulos, Panos (Εξεταστής)
Kotidis, Ioannis (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)
Type :Text
Extent :66p.
Language :en
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11833
Abstract :Η Αντιστοίχιση Οντοτήτων (EL) είναι μια διεργασία στην Επεξεργασία Φυσικής Γλώσσας που περιλαμβάνει την αντιστοίχιση κειμενικών αναφορών με τις σωστές εγγραφές σε μια Βάση Γνώσεων. Στην παρούσα διπλωματική, προτείνουμε μια νέα, δυναμική και ευέλικτη μέθοδο EL χωρίς εκπαίδευση, η οποία αξιοποιεί τεχνικές Μηχανικής Μάθησης και Μεγάλων Γλωσσικών Μοντέλων (LLM) για την αντιστοίχιση κειμενικών τμημάτων ερευνητικών μεθόδων με τις αντίστοιχες εγγραφές του Wikidata. Η μεθοδολογία μας αποτελείται από πέντε στάδια: 1) Κανονικοποίηση Δεδομένων, η οποία λαμβάνει ως είσοδο τις κειμενικές αναφορές οντοτήτων μαζί με το την πρόταση και τις μετατρέπει σε μια τυποποιημένη αναπαράσταση χρησιμοποιώντας ένα LLM; 2) Ανάκτηση Υποψηφίων, όπου αξιοποιεί δύο APIs για την ανάκτηση υποψηφίων οντοτήτων; 3) Συλλογή Πληροφοριών, όπου χρησιμοποιεί ερωτήματα SPARQL για την απόκτηση σχετικών πληροφοριών για κάθε υποψήφια οντότητα; 4) Επιλογή Υποψηφίου, όπου χρησιμοποιεί ένα μοντέλο αναπαράστασης για να κωδικοποιήσει τις προτάσεις, τις αναφορές και τις υποψήφιες οντότητες σε διανυσματικές αναπαραστάσεις, ενώ εφαρμόζοντας σημασιολογική ομοιότητα επιλέγει την οντότητα με τη μεγαλύτερη βαθμολογία ως τη σωστή; και 5) Αντιστοίχιση Υποψηφίων, η οποία συνδέει τη σωστή οντότητα με τη αντίστοιχη στη βάση γνώσεων. Για την αξιολόγηση της μεθόδου μας, δημιουργήσαμε ένα σύνολο δεδομένων με ανθρώπινη επιμέλεια, που περιλαμβάνει 3,947 κειμενικές αναφορές σε ονόματα ερευνητικών μεθόδων με σύνθετες λεξικο-συντακτικές μορφές (π.χ. "denaturing gradient gel electrophoresis", ή ακρωνύμια), οι οποίες αποσαφηνίστηκαν και συνδέθηκαν χειροκίνητα με τις αντίστοιχες καταχωρήσεις στο Wikidata.Η αξιολόγηση περιλάμβανε έξι πειράματα: τα πρώτα τρία εξέτασαν την απόδοση διάφορων στοιχείων της ροής εργασίας μας (π.χ. Wikipedia και Objective API, διαφορετικές μεθόδους υπολογισμού ομοιότητας και μοντέλα ενσωμάτωσης), ενώ τα υπόλοιπα συνέκριναν την απόδοση της μεθοδολογίας μας με άλλες υπάρχουσες λύσεις υπό διαφορετικές ρυθμίσεις κατωφλίων εμπιστοσύνης (π.χ. χωρίς τροποποίηση, βέλτιστο για κάθε μέθοδο και 50% σε όλες τις μεθόδους). Τα αποτελέσματα δείχνουν ότι η μέθοδός μας είχε State-of-the-Art αποτελέσματα, διατηρώντας ταυτόχρονα υψηλά επίπεδα εμπιστοσύνης σε όλες τις προβλέψεις.
Entity Linking (EL) is a task in Natural Language Processing (NLP) that involves associating textual references with the correct entries in a Knowledge Base (KB). In this thesis we propose a novel, dynamic and flexible zero-shot EL method that leverages Machine Learning (ML) and LLM-based techniques in order to link textual spans of research methods with their corresponding Wikidata entries. Our EL approach is structured around five modules: 1) Data Normalization that takes as input the textual mentions of entities along with their sentence context and transforms them into a standardized representation using an LLM; 2) Candidate Retrieval that employs two APIs (namely Wikipedia and Objective API) to retrieve candidate entities; 3) Information Gathering that utilizes SPARQL queries in order to obtain relevant information about each candidate; 4) Candidate Selection that employs an embedding model to encode the input sentences, the mentions and the candidate entities into vector representations and using cosine similarity selects the correct entity; and 5) Candidate Matching that links the best candidate to the corresponding entry in the KB.To evaluate our method, we created a human-annotated dataset, comprising 3,947 textual mentions of research methods' names with complex lexico-syntactic forms (such as "denaturing gradient gel electrophoresis", or acronyms) that were manually disambiguated and linked to their corresponding Wikidata entries. Evaluation involved six experiments: the first three assessed the performance of the various components of our workflow (i.e. Wikipedia and Objective API, different similarity calculation methods and embedding models), while the rest compared the performance of our methodology against other existing solutions using different settings in confidence thresholds (i.e. no modification, optimum for each method and 50% across all methods). Results show that our method achieved State-of-the-Art performance while maintaining high confidence levels in all predictions.
Subject :Επεξεργασία φυσικής γλώσσας
Σύνδεση οντοτήτων
Αποσαφήνιση οντοτήτων
Σημασιολογική ομοιότητα
Πυκνή αναπαράσταση διανυσμάτων
Natural Language Processing (NLP)
Entity linking
Entity disambiguation
Semantic Similarity
Dense vector representation
Date Available :2025-01-19 11:46:38
Date Issued :20-12-2024
Date Submitted :2025-01-19 11:46:38
Access Rights :Free access
Licence :

File: Kapralos_2024.pdf

Type: application/pdf