Abstract : | Η παρούσα διπλωματική εργασία έχει ως στόχο την δημιουργία ενός συνόλου δεδομένων εκπαίδευσης, με στόχο την μηχανική μάθηση σε ερευνητικές πρακτικές όπως προκύπτουν από αρχαιολογικά άρθρα. Τα δεδομένα της έρευνας βασίστηκαν σε ένα σύνολο δεδομένων με 25.682 αρχαιολογικά άρθρα, που παραχωρήθηκαν από την ψηφιακή βιβλιοθήκη JSTOR. Τα δεδομένα αναλύθηκαν και προέκυψαν στατιστικά του συνόλου δεδομένων, καθώς και αρχαιολογική ανάλυση των άρθρων αυτών, σχετικά με τις ερευνητικές διαδικασίες και αποτελέσματα. Για να δημιουργηθεί το σύνολο δεδομένων, μια ομάδα δύο γλωσσολόγων και μίας αρχαιολόγου ανέλαβε την εργασία καθαρισμού δεδομένων μετά την μεταγραφή των άρθρων μέσω OCR, επισημείωσης και δημιουργίας κανόνων για την Επεξεργασία Φυσικής Γλώσσας. Η διαδικασία επισημείωσης πραγματοποιήθηκε χρησιμοποιώντας το εργαλείο επισημείωσης Prodigy. Καθ’όλη την διάρκεια των προαναφερθέντων, δημιουργήθηκε οδηγός επισημείωσης βάσει αρχαιολογικών δεδομένων. Ο ποιοτικός έλεγχος των αποτελεσμάτων υπήρξε υψίστης σημασίας τόσο για την επισημείωση καθαυτή, όσο και για την εξαγωγή αποτελεσμάτων. Μετά την ολοκλήρωση της διαδικασίας επισημείωσης, υπολογίστηκε η συμφωνία μεταξύ των επισημειωτών και πραγματοποιήθηκε ανάλυση των αποτελεσμάτων. Η δημιουργία λιστών όρων, αποτελεί πολύ σημαντικό αποτελέσματα της παρούσας εργασίας και μπορούν να αποτελέσουν τα θεμέλια για την συνέχεια της έρευνας στον τομέα. The present dissertation focuses on the creation of a concrete Knowledge Base for machine learning applications in the niche of archaeology and its sub-areas. More importantly, the dissertation will add up to the research related to information extraction in regards to research processes in the domain of archaeology. In order to implement such a study, a specific dataset comprising more than 25.000 articles of archaeology was provided by the JSTOR digital library. Delving into the specific categories of the dataset provided an understanding of the research methods, tools, goals and propositions one would come across in these articles. A team of two linguists and an archaeologist undertook the data cleaning of the articles, after being OCRed. An “Annotation Guideline” was created by the archaeologist in order to facilitate the upcoming annotation. The annotation process was carried out using an annotation tool, under the classes of the Scholarly Ontology. After the completion of the annotation process, the inter-annotator agreement was calculated and an analysis of the errors committed during the annotation was carried out. Furthermore, lists of terms were created, as part of our results that our research yielded, with the intend of comparing them to other lists of terms found on the Internet. It is argued that although at the beginning of the study, the results didn’t live up to the standards of a high inter-annotator agreement, there are insightful conclusions adding up to the general study of knowledge base creation and knowledge extraction in research papers and studies.
|
---|