Περίληψη : | Το παρόν πόνημα αποτελεί μία δοκιμαστική αυτόματη επισημείωση, κατόπιν επεξεργασίας φυσικής γλώσσας, με στόχο την εξαγωγή πληροφορίας, σε ένα από τα πεδία μεταδεδομένων μιας συλλογής τεκμηρίων. Συγκεκριμένα, τέθηκε στο επίκεντρο του ενδιαφέροντος η εξαγωγή δομημένης πληροφορίας από ένα σώμα κειμένων, το οποίο συστάθηκε ύστερα από επιλογή, βασισμένη σε προκαθορισμένα κριτήρια, από αρχειακές εγγραφές της Διεύθυνσης Ιστορίας Στρατού, που έφεραν ποικίλη πληροφορία ως μεταδεδομένα. Το αρχείο αυτό δόθηκε σε ηλεκτρονική μορφή και ήταν επεξεργάσιμο. Περιλαμβάνει περιγραφικούς τίτλους αρχειακών εγγραφών που αναφέρονται στη δεκαετία του 1940, που μεταξύ άλλων πληροφοριών, αναφέρονται σε πρόσωπα, τόπους, περιόδους, ημερομηνίες, γεγονότα και στρατιωτικές μονάδες. Αυτές οι κατηγορίες πληροφορίας μπορούν να αξιοποιηθούν μελλοντικά στη συγκρότηση ευρετηρίων προσώπων, ημερομηνιών, γεγονότων, τόπων, στρατιωτικών μονάδων, ώστε να καθίσταται δυνατή η ενιαία πρόσβαση σε αρχειακά τεκμήρια με κοινές αναφορές. Στο πλαίσιο της ανάπτυξη της υπηρεσίας για εξαγωγή πληροφορίας, που θα επισημειώνει τις συγκεκριμένες κατηγορίες, εστιάζουμε στην συγκρότηση του ευρετηρίου τοπωνυμίων με τα ξεχωριστά κλειδιά (ids) τους, καθώς και στην σύνταξη των κανόνων για την επισημείωση των τοπωνυμίων στις αρχειακές εγγραφές. Δεδομένων των γλωσσολογικών ιδιομορφιών του υλικού προέκυψαν σκόπελοι μορφοσυντακτικής και πραγματολογικής φύσης θέτοντας ιδιαίτερες προκλήσεις για τις υπολογιστικές διαδικασίες της επεξεργασίας φυσικής γλώσσας. Στην παρούσα εργασία χρησιμοποιείται ένα σύνολο εργαλείων που έχουν αναπτυχθεί από το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) του Ερευνητικού Κέντρου Αθηνά. Σε αυτά έγιναν στην εργασία οι αναγκαίες προσαρμογές και προσθήκες, ώστε να αντιμετωπισθεί αποτελεσματικότερα αφενός η μορφή των σχετικών εγγραφών μεταδεδομένων του αρχείου της Διεύθυνσης Ιστορίας Στρατού και αφετέρου η άντληση των στοιχείων: αποστολέας, παραλήπτης, τοπωνύμιο, ημερομηνία, είδος κειμένου και θέμα. Αξιοποιήθηκε η γλώσσα σεναρίων UIMA RUTA που παρέχεται από το εργαλείο APACHE UIMA RUTA, η οποία λειτούργησε στο ολοκληρωμένο προγραμματιστικό περιβάλλον(IDE) Eclipse. This dissertation is an experimental application of automatic annotation following an NLP process aimed at text mining, in other words the elicitation of information from textual passages. Specifically, the elicitation of structured information from a specific textual corpus has been set in the spotlight. The corpus was created of archival entries of the Army History Directorate (AHD) conveying interestingly diverse metadata, which were selected based on some predetermined criteria. The corpus was provided in processible electronic form and it contains descriptive titles of archival documents. These documents refer to the period of 1940s in Greece and mention names, places, periods, dates, events and military units. The information mined from the corpus can be used for the compilation of indexes of names, places, periods, dates, events and military units respectively, through which unified access will be enabled to archival documents with common references. The present work focuses on the construction of an index of place names and related unique identifiers (ID), as well as the definition of the rules for annotating place names in the archival entries. Given that the material derives from various and heterogeneous sources and that no literary editing has taken place, obstacles related to morphosyntactic and pragmatic issues arose setting crucial challenges for the computational procedures of NLP. In this work a set of tools developed by the Institute for Language and Speech Processing (LSP) of the Athena Research Centre are used. These tools have been appropriately configured and enhanced so that they can not only deal with the format of the documents of the Army History Directorate archive but also address the mining of the data: sender, recipient place name, date, genre, topic. The scripting language UIMA RUTA was used, provided by the APACHE UIMA RUTA tool and running within the (IDE) Eclipse programming enviroment.
|
---|