PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :Αναγνώριση ονοματικών οντοτήτων σε ελληνικά δημοσιογραφικά, νομικά και λογοτεχνικά κείμενα: διερευνήσεις σε διαφορετικά είδη κειμένων
Alternative Title :Named entity recognition in greek news, legal and literary texts: investigation in different text genres
Creator :Γεωργουλάκη-Μισεγιάννη, Ειρήνη
Contributor :Παπαγεωργίου, Χάρης (Επιβλέπων καθηγητής)
Ανδρουτσόπουλος, Ίων (Εξεταστής)
Παυλόπουλος, Ιωάννης (Εξεταστής)
Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής (Degree granting institution)
Type :Text
Extent :111σ.
Language :el
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7461
Abstract :Η Αναγνώριση Ονοματικών Οντοτήτων [ΑΟΟ] αποτελεί μία ερευνητική περιοχή στο χώρο της Επεξεργασίας Φυσικής Γλώσσας [ΕΦΓ] που εστιάζει στον εντοπισμό οντοτήτων και την κατηγοριοποίηση αυτών σε συγκριμένες κατηγορίες οντοτήτων, όπως είναι τα πρόσωπα, οι οργανισμοί και τα τοπωνύμια. Οι σύγχρονες τεχνικές μηχανικής μάθησης στο χώρο της ΕΦΓ έχουν επιφέρει αξιοσημείωτη βελτίωση στην απόδοση των μηχανών ΑΟΟ. Η επίτευξη αυτή σημειώνεται πρωτίστως για την αγγλική γλώσσα και σε συγκεκριμένες κατηγορίες κειμένων, όπως είναι τα δημοσιογραφικά. Στόχος της παρούσας εργασίας αποτελεί η διερεύνηση της προσαρμοστικότητας μίας τυπικής μηχανής ΑΟΟ σε διαφορετικά είδη κειμένων. Συγκεκριμένα, θα εξετάσουμε τη μηχανή εξαγωγής ΟΟ του ΙΕΛ για την ελληνική γλώσσα σε είδη κειμένων πέρα από τα δημοσιογραφικά στα οποία έχει εκπαιδευτεί. Τα δύο νέα αυτά είδη αποτελούν τα νομικά και τα λογοτεχνικά. Η εργασία δομείται ως εξής: ξεκινά με μία εισαγωγή και μία σύντομη βιβλιογραφική επισκόπηση στην ενότητα 2. Στη συνέχεια, στην ενότητα 3, διερευνάται η ιδιαίτερη φύση των τριών κειμενικών ειδών (νέα, νομικά έγγραφα και λογοτεχνία), όπως και τα διλήμματα και οι δυσκολίες που προκύπτουν κατά την επισημείωσή τους. Τέλος, στην ενότητα 4, παρουσιάζονται τα ποσοστά επιτυχίας και τα συχνότερα λάθη του εργαλείου (ανά κειμενικό είδος αλλά και συνολικά), ενώ η εργασία ολοκληρώνεται με προτάσεις για βελτίωση ενός εργαλείου ΑΟΟ προκειμένου να καταστεί αποτελεσματικότερο σε ένα μεγαλύτερο εύρος κειμένων.
Named Entity Recognition [NER] is a research area and a challenging task in Natural Language Processing [NLP] aiming at spotting and annotating certain types of named entities within texts; the most dominant entity annotation schema encompasses names of people, organisations and locations (typically proper nouns). Recent advances in Machine/Deep learning have led to significant improvements in the performance of Entity Extractors mostly in English and in specific text domains, such as news. The purpose of this dissertation is the investigation of a typical Named Entity Recogniser for the Greek language, namely the ILSP Entity Extraction Tool and the examination of its performance in different domains from the one it has been trained on. Concretely, we will be experimenting with the ILSP Entity Extraction tool for the Greek language in three different domains: news (on which it has been trained), legal and literary texts. The thesis is organised as follows: A brief introduction and literature review is given in section 2. The particular idiosyncrasies of the two domains as well as the obstacles and the problematic cases we came across during the annotation process are examined and findings are also reported in section 3. Finally, quantitative analysis and results (per domain/overall) are presented in section 4 and we conclude with suggestions for further improvements of entity extraction tools increasing their efficiency and coverage for a variety of texts.
Subject :Αναγνώριση ονοματικών οντοτήτων
Επισημείωση
Δημοσιογραφικά κείμενα
Νομικά κείμενα
Λογοτεχνικά κείμενα
Named entity recognition
Annotation
News
Legal texts
Literature
Date Available :2019-12-31 01:41:52
Date Issued :11/19/2019
Date Submitted :2019-12-31 01:41:52
Access Rights :Free access
Licence :

File: Georgoulaki-Misegianni_2019.pdf

Type: application/pdf

Georgoulaki-Misegianni_2019.zip