Digital methods for transforming scholarly PDFs into knowledge graphs
Ημερομηνία
2026-03-26
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων / ουσα
Διαθέσιμο από
Περίληψη
Portable Document Format (PDF) files constitute the dominant medium for the dissemination of scholarly literature, including in the field of archaeology, where research outputs are commonly distributed as journal articles and technical reports. Despite their ubiquity, the structural limitations of PDF encoding pose significant challenges for large- scale computational analysis. Knowledge graphs offer a way to address this challenge by representing extracted information as semantically structured entities and relations and enabling it to be linked, queried and reused. This thesis proposes and evaluates an end- to-end workflow for transforming scholarly PDF documents from archaeological research into a knowledge graph.
The proposed workflow encompasses four main stages: (1) document parsing, in which a diverse set of parsing tools is applied to a curated dataset of archaeological publications; (2) content and structure extraction, in which textual content and structural components are recovered from each document; (3) schema-based representation, in which the extracted information is encoded in a predefined JSON structure capturing the hierarchical organization of scholarly documents; and (4) graph construction, in which the structured JSON files are transformed into RDF triples and used to populate a knowledge graph, on the basis of cross-ontology mappings between established scholarly ontologies including DoCO, FaBiO, BiRO, BIBO, and the Scholarly Ontology.
To assess the suitability of different parsing tools for knowledge graph construction, an evaluation framework is introduced that compares tool outputs against the ground truth using metrics for textual accuracy (character-level and token-level normalised edit distance, character error rate, word error rate) and reading order fidelity (Kendall's τ).
Evaluation is conducted at both paragraph and document levels across different document categories. The results demonstrate notable variation in tool performance depending on document type and evaluation level. To demonstrate the capabilities of the constructed graph, a series of SPARQL queries targeting different structural and semantic aspects of the extracted data is executed.Τα αρχεία PDF (Portable Document Format) αποτελούν ένα σύνηθες μέσο διάδοσης της επιστημονικής βιβλιογραφίας, συμπεριλαμβανομένου και του τομέα της αρχαιολογίας, όπου τα ερευνητικά αποτελέσματα δημοσιεύονται συχνά υπό τη μορφή επιστημονικών άρθρων και αναφορών. Παρά την ευρεία χρήση τους, οι δομικοί περιορισμοί της κωδικοποίησης PDF δημιουργούν σημαντικές προκλήσεις για την εκτέλεση υπολογιστικών αναλύσεων μεγάλης κλίμακας, γεγονός που καθιστά δυσχερή την εξαγωγή δομημένης πληροφορίας. Οι γράφοι γνώσης προσφέρουν έναν τρόπο αντιμετώπισης αυτής της πρόκλησης, αναπαραστώντας την εξαγόμενη πληροφορία ως σημασιολογικά δομημένες οντότητες και σχέσεις και καθιστώντας δυνατή τη διασύνδεση, την αναζήτηση και την επαναχρησιμοποίησή της. Η παρούσα διπλωματική εργασία προτείνει μια ολοκληρωμένη ροή εργασίας για τον μετασχηματισμό επιστημονικών εγγράφων σε μορφή PDF από την αρχαιολογική έρευνα σε ένα γράφο γνώσης.
Η προτεινόμενη ροή εργασίας περιλαμβάνει τέσσερα κύρια στάδια: (1) την ανάλυση εγγράφων, κατά την οποία εφαρμόζεται ένα σύνολο ετερογενών εργαλείων ανάλυσης σε ένα επιμελημένο σύνολο αρχαιολογικών δημοσιεύσεων, (2) εξαγωγή περιεχομένου και δομής, κατά την οποία ανακτώνται το κειμενικό περιεχόμενο και τα δομικά στοιχεία κάθε εγγράφου (3) αναπαράσταση βάσει σχήματος, κατά την οποία η εξαγόμενη πληροφορία κωδικοποιείται σε μία προκαθορισμένη δομή JSON που αποτυπώνει την ιεραρχική οργάνωση των επιστημονικών εγγράφων και (4) κατασκευή γράφου, κατά την οποία τα δομημένα αρχεία JSON μετατρέπονται σε τριπλέτες RDF και χρησιμοποιούνται για την τροφοδότηση ενός γράφου γνώσης, βάσει διασυνδέσεων μεταξύ καθιερωμένων επιστημονικών οντολογιών, όπως οι DoCO, FaBiO, BiRO, BIBO και Scholarly Ontology.
Για την αξιολόγηση της καταλληλότητας διαφορετικών εργαλείων για την κατασκευή γράφου γνώσης, εισάγεται ένα πλαίσιο αξιολόγησης που συγκρίνει τα αποτελέσματα των εργαλείων με τα δεδομένα αναφοράς χρησιμοποιώντας μετρήσεις για την ακρίβεια κειμένου (character-level and token-level normalised edit distance, character error rate, word error rate) και την πιστότητα της σειράς ανάγνωσης (Kendall's τ). Η αξιολόγηση πραγματοποιείται τόσο σε επίπεδο παραγράφου όσο και σε επίπεδο εγγράφου, σε διαφορετικές κατηγορίες εγγράφων. Τα αποτελέσματα καταδεικνύουν σημαντικές διαφοροποιήσεις στην απόδοση των εργαλείων ανάλογα με τον τύπο του εγγράφου και το επίπεδο αξιολόγησης. Για τη διερεύνηση των δυνατοτήτων του παραγόμενου γράφου γνώσης, διατυπώνεται μια σειρά ερωτημάτων SPARQL που στοχεύουν σε διαφορετικές δομικές και σημασιολογικές πτυχές των εξαγόμενων δεδομένων.
Περιγραφή
Λέξεις-κλειδιά
Knowledge graphs, SPARQL, Scholarly ontology, Optical Character Recognition (OCR), PDF document parsing, Γράφοι γνώσης, Οπτική Αναγνώριση Χαρακτήρων (OCR), Ανάλυση εγγράφων PDF

