AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Αναγνώριση ονοματικών οντοτήτων σε ελληνικά δημοσιογραφικά, νομικά και λογοτεχνικά κείμενα: διερευνήσεις σε διαφορετικά είδη κειμένων

Alternative Title :	Named entity recognition in greek news, legal and literary texts: investigation in different text genres

Creator :	Γεωργουλάκη-Μισεγιάννη, Ειρήνη

Contributor :	Παπαγεωργίου, Χάρης (Επιβλέπων καθηγητής) Ανδρουτσόπουλος, Ίων (Εξεταστής) Παυλόπουλος, Ιωάννης (Εξεταστής) Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής (Degree granting institution)

Type :	Text

Extent :	111σ.

Language :	el

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7461

Abstract :	Η Αναγνώριση Ονοματικών Οντοτήτων [ΑΟΟ] αποτελεί μία ερευνητική περιοχή στο χώρο της Επεξεργασίας Φυσικής Γλώσσας [ΕΦΓ] που εστιάζει στον εντοπισμό οντοτήτων και την κατηγοριοποίηση αυτών σε συγκριμένες κατηγορίες οντοτήτων, όπως είναι τα πρόσωπα, οι οργανισμοί και τα τοπωνύμια. Οι σύγχρονες τεχνικές μηχανικής μάθησης στο χώρο της ΕΦΓ έχουν επιφέρει αξιοσημείωτη βελτίωση στην απόδοση των μηχανών ΑΟΟ. Η επίτευξη αυτή σημειώνεται πρωτίστως για την αγγλική γλώσσα και σε συγκεκριμένες κατηγορίες κειμένων, όπως είναι τα δημοσιογραφικά. Στόχος της παρούσας εργασίας αποτελεί η διερεύνηση της προσαρμοστικότητας μίας τυπικής μηχανής ΑΟΟ σε διαφορετικά είδη κειμένων. Συγκεκριμένα, θα εξετάσουμε τη μηχανή εξαγωγής ΟΟ του ΙΕΛ για την ελληνική γλώσσα σε είδη κειμένων πέρα από τα δημοσιογραφικά στα οποία έχει εκπαιδευτεί. Τα δύο νέα αυτά είδη αποτελούν τα νομικά και τα λογοτεχνικά. Η εργασία δομείται ως εξής: ξεκινά με μία εισαγωγή και μία σύντομη βιβλιογραφική επισκόπηση στην ενότητα 2. Στη συνέχεια, στην ενότητα 3, διερευνάται η ιδιαίτερη φύση των τριών κειμενικών ειδών (νέα, νομικά έγγραφα και λογοτεχνία), όπως και τα διλήμματα και οι δυσκολίες που προκύπτουν κατά την επισημείωσή τους. Τέλος, στην ενότητα 4, παρουσιάζονται τα ποσοστά επιτυχίας και τα συχνότερα λάθη του εργαλείου (ανά κειμενικό είδος αλλά και συνολικά), ενώ η εργασία ολοκληρώνεται με προτάσεις για βελτίωση ενός εργαλείου ΑΟΟ προκειμένου να καταστεί αποτελεσματικότερο σε ένα μεγαλύτερο εύρος κειμένων. Named Entity Recognition [NER] is a research area and a challenging task in Natural Language Processing [NLP] aiming at spotting and annotating certain types of named entities within texts; the most dominant entity annotation schema encompasses names of people, organisations and locations (typically proper nouns). Recent advances in Machine/Deep learning have led to significant improvements in the performance of Entity Extractors mostly in English and in specific text domains, such as news. The purpose of this dissertation is the investigation of a typical Named Entity Recogniser for the Greek language, namely the ILSP Entity Extraction Tool and the examination of its performance in different domains from the one it has been trained on. Concretely, we will be experimenting with the ILSP Entity Extraction tool for the Greek language in three different domains: news (on which it has been trained), legal and literary texts. The thesis is organised as follows: A brief introduction and literature review is given in section 2. The particular idiosyncrasies of the two domains as well as the obstacles and the problematic cases we came across during the annotation process are examined and findings are also reported in section 3. Finally, quantitative analysis and results (per domain/overall) are presented in section 4 and we conclude with suggestions for further improvements of entity extraction tools increasing their efficiency and coverage for a variety of texts.

Abstract :

Η Αναγνώριση Ονοματικών Οντοτήτων [ΑΟΟ] αποτελεί μία ερευνητική περιοχή στο χώρο της Επεξεργασίας Φυσικής Γλώσσας [ΕΦΓ] που εστιάζει στον εντοπισμό οντοτήτων και την κατηγοριοποίηση αυτών σε συγκριμένες κατηγορίες οντοτήτων, όπως είναι τα πρόσωπα, οι οργανισμοί και τα τοπωνύμια. Οι σύγχρονες τεχνικές μηχανικής μάθησης στο χώρο της ΕΦΓ έχουν επιφέρει αξιοσημείωτη βελτίωση στην απόδοση των μηχανών ΑΟΟ. Η επίτευξη αυτή σημειώνεται πρωτίστως για την αγγλική γλώσσα και σε συγκεκριμένες κατηγορίες κειμένων, όπως είναι τα δημοσιογραφικά. Στόχος της παρούσας εργασίας αποτελεί η διερεύνηση της προσαρμοστικότητας μίας τυπικής μηχανής ΑΟΟ σε διαφορετικά είδη κειμένων. Συγκεκριμένα, θα εξετάσουμε τη μηχανή εξαγωγής ΟΟ του ΙΕΛ για την ελληνική γλώσσα σε είδη κειμένων πέρα από τα δημοσιογραφικά στα οποία έχει εκπαιδευτεί. Τα δύο νέα αυτά είδη αποτελούν τα νομικά και τα λογοτεχνικά. Η εργασία δομείται ως εξής: ξεκινά με μία εισαγωγή και μία σύντομη βιβλιογραφική επισκόπηση στην ενότητα 2. Στη συνέχεια, στην ενότητα 3, διερευνάται η ιδιαίτερη φύση των τριών κειμενικών ειδών (νέα, νομικά έγγραφα και λογοτεχνία), όπως και τα διλήμματα και οι δυσκολίες που προκύπτουν κατά την επισημείωσή τους. Τέλος, στην ενότητα 4, παρουσιάζονται τα ποσοστά επιτυχίας και τα συχνότερα λάθη του εργαλείου (ανά κειμενικό είδος αλλά και συνολικά), ενώ η εργασία ολοκληρώνεται με προτάσεις για βελτίωση ενός εργαλείου ΑΟΟ προκειμένου να καταστεί αποτελεσματικότερο σε ένα μεγαλύτερο εύρος κειμένων.
Named Entity Recognition [NER] is a research area and a challenging task in Natural Language Processing [NLP] aiming at spotting and annotating certain types of named entities within texts; the most dominant entity annotation schema encompasses names of people, organisations and locations (typically proper nouns). Recent advances in Machine/Deep learning have led to significant improvements in the performance of Entity Extractors mostly in English and in specific text domains, such as news. The purpose of this dissertation is the investigation of a typical Named Entity Recogniser for the Greek language, namely the ILSP Entity Extraction Tool and the examination of its performance in different domains from the one it has been trained on. Concretely, we will be experimenting with the ILSP Entity Extraction tool for the Greek language in three different domains: news (on which it has been trained), legal and literary texts. The thesis is organised as follows: A brief introduction and literature review is given in section 2. The particular idiosyncrasies of the two domains as well as the obstacles and the problematic cases we came across during the annotation process are examined and findings are also reported in section 3. Finally, quantitative analysis and results (per domain/overall) are presented in section 4 and we conclude with suggestions for further improvements of entity extraction tools increasing their efficiency and coverage for a variety of texts.

Subject :	Αναγνώριση ονοματικών οντοτήτων Επισημείωση Δημοσιογραφικά κείμενα Νομικά κείμενα Λογοτεχνικά κείμενα Named entity recognition Annotation News Legal texts Literature

Date Available :	2019-12-31 01:41:52

Date Issued :	11/19/2019

Date Submitted :	2019-12-31 01:41:52

Access Rights :	Free access

Licence :

File: Georgoulaki-Misegianni_2019.pdf

Type: application/pdf

Georgoulaki-Misegianni_2019.zip

Login