Περίληψη : | Με τη διάδοση της χρήσης ψηφιακών πόρων και εργαλείων, εμφανίζεται και η ανάγκη "χαρτογράφησης" των διαθέσιμων πόρων, εργαλείων, μεθόδων και πρακτικών εργασίας στα διάφορα πεδία, ώστε να διευκολύνεται η εύρεση και επιλογή των εκάστοτε καταλλήλων σε σχέση με τους επιδιωκόμενους σκοπούς.Η εργασία εντάσσεται στο πλαίσιο ανάπτυξης μίας βάσης γνώσης πρακτικών εργασίας για τις ανθρωπιστικές και κοινωνικές επιστήμες. Η βάση γνώσης θα κωδικοποιήσει την περιγραφή της ερευνητικής εργασίας, και θα περιέχει τα συστατικά της στοιχεία. Η οργάνωση της πληροφορίας θα γίνει βάσει επιλεγμένων τάξεων και σχέσεων της Scholarly Ontology.Για τους σκοπούς της συγκροτήθηκε σύνολο 25.681 δημοσιεύσεων ανθρωπιστικών και κοινωνικών επιστημών, το οποίο αντλήσαμε από το JSTOR. Εστιάζουμε στην προετοιμασία για την εξαγωγή της προαναφερθείσας πληροφορίας από υποσύνολο αρχαιολογικού ενδιαφέροντος με μεθόδους μηχανικής μάθησης. Η προετοιμασία αφορά σε εργασίες που έγιναν στα δεδομένα πριν και κατά την επισημείωσή τους. Αρχικά, περιγράφονται οι μέθοδοι προεπεξεργασίας που αναπτύξαμε για τη απομόνωση και αφαίρεση περιττών αποσπασμάτων ή προβληματικών χαρακτήρων που εντοπίστηκαν στα κείμενα. Έπειτα, παρουσιάζουμε τον σκοπό και τη διαδικασία της επισημείωσης. Δίνεται έμφαση στον υπολογισμό της συμφωνίας μεταξύ επισημειωτών και στους παράγοντες που την επηρέασαν. Τέλος, αναφερόμαστε στην προετοιμασία μοντέλου αναγνώρισης ονοματικών οντοτήτων (Named Entity Recognition) με τη δημιουργία λεξιλογικών διανυσμάτων (word embeddings) από το σύνολο των διαθέσιμων και καθαρισμένων πλέον δεδομένων. With the increasing use of digital resources and tools, there is a need to "map" the available resources, tools, methods, and work practices in the various fields, in order to facilitate the finding and selection of the appropriate ones in relation to the intended purposes.This thesis is part of a greater effort, which aims to develop an experimental knowledge base of research practices in the humanities and social sciences. The knowledge base will organize and store descriptions of scholarly practices, and will contain its components, such as activities, methods, and tools. The information will be organized based on selected classes and relationships of the Scholarly Ontology.For its purposes, a dataset of 25,681 humanities and social science publications was compiled and provided by JSTOR. The thesis focuses on the preparation for the extraction of the aforementioned information from a subset of archaeological publications using machine learning methods. The preparation concerns tasks carried out before and during the annotation of the data. First, we present the preprocessing methods we developed to remove noise artifacts from the text, which were introduced by OCR, as well as unnecessary snippets. Next, we outline the annotation process and its goal, with great emphasis on the Inter-Annotator Agreement and the factors that influenced it. Finally, we describe the creation of word embeddings based on the entirety of available textual data.
|
---|