ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη
Συλλογές :

Τίτλος :Βάση γνώσης πρακτικών εργασίας: προσαρμογή κανόνων εξαγωγής γνώσης
Δημιουργός :Χαμπιλίδου, Κυριακή
Συντελεστής :Κωνσταντόπουλος, Πάνος (Επιβλέπων καθηγητής)
Ανδρουτσόπουλος, Ίων (Εξεταστής)
Κωττίδης, Ιωάννης (Εξεταστής)
Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής (Degree granting institution)
Τύπος :Text
Φυσική περιγραφή :90σ.
Γλώσσα :el
Αναγνωριστικό :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9164
Περίληψη :Ο στόχος της παρούσας διπλωματικής εργασίας είναι η εξαγωγή πληροφορίας με βάση την Οντολογία Scholarly Ontology (SO) από ένα αρχείο κειμένων, το οποίο αποτελείτo από 25.682 επιστημονικά άρθρα της επιστήμης της Αρχαιολογίας, αλλά και άλλων συναφών επιστημών ή κλάδων της, το οποίο μας διατέθηκε από την ψηφιακή βιβλιοθήκη JSTOR. Για τον σκοπό αυτό αναπτύχθηκε ένα σύστημα γλωσσολογικών κανόνων (lexico- syntactic patterns) οι οποίοι εντοπίζουν τις οντότητες ACTIVITY, GOAL, PROPOSITION, METHOD και TOOL της SO. Προκειμένου να αξιολογηθεί η αποδοτικότητα του συστήματος, επισημειώθηκε χειροκίνητα ένα δείγμα συνολικά 90 άρθρων, έκτασης 1386 σελίδων. Το εργαλείο που χρησιμοποιήθηκε για την επισημείωση ήταν το Prodigy. Για την σύνταξη των κανόνων χρησιμοποιήθηκαν οι Matchers της βιβλιοθήκης SpaCy, η οποία είναι απόλυτα συμβατή και με το εργαλείο. Κατά την δημιουργία των κανόνων ελήφθησαν υπόψιν γραμματικά και συντακτικά φαινόμενα που αντιστοιχούσαν σε κάθε μία από τις οντότητες ενδιαφέροντος, κυρίως για τις οντότητες ACTIVITY, GOAL και PROPOSITION, αλλά και το ειδικό λεξιλόγιο που προέκυψε κατόπιν επισημειώσεων για τις οντότητες METHOD και TOOL. Οι κανόνες εφαρμόστηκαν σε ένα μικρό δείγμα 30 επισημειωμένων άρθρων και αξιολογήθηκαν σε επίπεδο token ποσοτικά και ποιοτικά. Tα αποτελέσματα ήταν αρκούντως ικανοποιητικά, ωστόσο σημαντικότερα ήταν τα συμπεράσματα που προέκυψαν κατά την ποσοτική αξιολόγηση, τα οποία θα βοηθήσουν στην βελτίωση της αποδοτικότητας των κανόνων.
The aim of this dissertation is to extract information based on the Scholarly Ontology (SO) from a dataset, which consists of 25,682 scientific articles of the science of Archeology, as well as other related sciences or branches, which was provided to us by the JSTOR digital library. For this purpose, a system of linguistic rules (lexico-syntactic patterns) was developed which identify the entities ACTIVITY, GOAL, PROPOSITION, METHOD and TOOL of SO. In order to evaluate the efficiency of the system, a sample of a total of 90 articles, covering 1386 pages, was manually annotated. The tool used for the annotation was Prodigy. Matchers from the SpaCy library, which is fully compatible with the tool, were used to compile the rules. During the creation of the rules, grammatical and syntactic phenomena corresponding to one of the entities of interest were taken into account, mainly for the entities ACTIVITY, GOAL and PROPOSITION, but also the special vocabulary that emerged after the annotation process for the entities METHOD and TOOL. The rules were applied to a small sample of 30 annotated articles and evaluated at token level quantitatively and qualitatively. The results were satisfying enough, but more important were the conclusions reached during the quantitative evaluation, which will help to improve the efficiency of the patterns.
Λέξη κλειδί :Eξαγωγή πληροφορίας
Λεξικο-συντακτικοί κανόνες
Οντολογία SO
SpaCy
Information extraction
Lexico-syntactic patterns
SO-ontology
SpaCy
Διαθέσιμο από :2022-02-22 21:57:22
Ημερομηνία έκδοσης :2021
Ημερομηνία κατάθεσης :2022-02-22 21:57:22
Δικαιώματα χρήσης :Free access
Άδεια χρήσης :

Αρχείο: Champilidou_2021.pdf

Τύπος: application/pdf