Περίληψη : | Ο στόχος αυτής της διπλωματικής εργασίας είναι η εξαγωγή πληροφορίας από ελεύθερο κείμενο με μεθόδους επεξεργασίας φυσικής γλώσσας από τις εγγραφές του αρχείου της Διεύθυνσης Ιστορίας Στρατού (ΔΙΣ). Το αρχείο διαθέτει έναν ψηφιακό κατάλογο οι εγγραφές του οποίου αποτελούνται από τυποποιημένα πεδία μεταδεδομένων που αναφέρονται στα τεκμήρια του αρχείου. Από αυτά εστιάζουμε στο πεδίο ‘τίτλος’ σε κεφαλαιογράμματη γραφή, το οποίο ουσιαστικά αποτελεί συνοπτική περιγραφή του περιεχομένου του τεκμηρίου και περιλαμβάνει έναν σχετικά μεγάλο αριθμό ονοματικών οντοτήτων όπως πρόσωπα, τοπωνύμια, μονάδες και σχηματισμούς του ελληνικού στρατού, της ελληνικής χωροφυλακής και της ελληνικής αστυνομίας καθώς και πληθώρα συντομογραφιών. Εφαρμόζοντας τεχνικές επεξεργασίας φυσικής γλώσσας με εργαλεία του Ινστιτούτου Επεξεργασίας του Λόγου (ΙΕΛ) και δικές μας προσθήκες, επιτυγχάνουμε την αυτόματη εξαγωγή από το κείμενο του τίτλου των πληροφοριών: Τύπος Εγγράφου, Αποστολέας, Παραλήπτης, Ημερομηνία, Θέμα, Στρατιωτική Μονάδα, Τοπωνύμια. Σε πρώτο στάδιο επεξεργασίας αναγνωρίζεται το μέρος του λόγου και το λήμμα σε όλες τις λέξεις των τίτλων και κάθε τίτλος χωρίζεται σε σύνολα λέξεων τα οποία αποτελούν λειτουργικά διακριτές ομάδες, δηλαδή σε φραστικά συστατικά, χρησιμοποιώντας εργαλεία του ΙΕΛ. Σε δεύτερο στάδιο εξάγονται οι επιθυμητές πληροφορίες με την εφαρμογή κανόνων που αναπτύξαμε επεκτείνοντας και συμπληρώνοντας ένα δεδομένο σύνολο κανόνων από το ΙΕΛ με τη χρήση Regular Expressions και της γλώσσας Apache UIMA Ruta. Δοκιμές σε ένα σώμα περίπου 1500 τίτλων δείχνουν ότι τα αποτελέσματα είναι ενθαρρυντικά. The subject of this thesis is Information Extraction from free text of the entries of the archive of the Army History Directorate (AHD) using Natural Language Processing techniques. The archive contains a digital catalogue whose entries consist of standard metadata fields referring to the exhibits of the archive. The focus is on the field ‘title’ in uppercase letters which is essentially a concise description of the exhibit’s content and includes a relatively large number of name entities such as names, places, Greek army units and formations, Greek gendarmerie and Greek police, as well as a large number of abbreviations. The relevant information from the text of the title is automatically obtained using Natural Language Processing techniques with tools created in the Institute for Language and Speech Processing. It contains the following categories: Document Type, Sender, Addressee, Date, Subject, Army Unit, Geonames. The preprocessing stage includes part-of-speech-tagging and lemmatization of all the words and each title is divided into word sums which are part of functionally distinct groups, using ILSP tools. The second stage is preoccupied with the desired information extraction which is obtained by the application of a hand crafted system of rules based on Regular Expressions and UIMA RUTA language. Tests on a corpus of 1500 titles show encouraging results.
|
---|