Περίληψη : | Η παρούσα διπλωματική έχει ως αντικείμενο την αυτόματη Επισημείωση Μερών του λόγου (ΕΜΛ). Η ΕΜΛ αποτελεί σημαντικό και σύνθετο πρόβλημα στην επεξεργασία φυσικής γλώσσας. Μια λέξη μπορεί να ανήκει σε ένα ή και περισσότερα μέρη του λόγου ανάλογα με τα συμφραζόμενα της. Επιπλέον, μια γλώσσα εξελίσσεται στο πέρασμα του χρόνου, αφού προστίθενται συνεχώς νέες λέξεις σε αυτήν. Συνεπώς η ΕΜΛ δεν μπορεί να αντιμετωπιστεί απλά με τη χρήση λεξικού. Τα προηγούμενα χρόνια έχει γίνει μεγάλη προσπάθεια για την παραγωγή συστημάτων που επισημειώνουν αυτόματα και με υψηλές επιδόσεις κείμενα. Πολλά από αυτά τα συστήματα στηρίζονται στη χρήση κανόνων και τη Μηχανική Μάθηση. Τα σύγχρονα συστήματα δείχνουν να επιτυγχάνουν ποσοστά ορθότητας κοντά στο 96%, κυρίως με τη χρήση Μηχανικής Μάθησης. Η παρούσα εργασία αποτελεί επέκταση ενός συστήματος Μηχανικής Μάθησης (Κολέλη, 2011). The current thesis focuses in PoS tagging. PoS Tagging is a complex and important problem in Natural Language Processing. A word maybe tagged with two different PoS tags, depending on its context. Furthermore, a language may evolve through time, because new words are added to it. Consequently PoS tagging cannot be addressed efficiently with the usage of PoS dictionaries. Lately many rule based and Machine Learning systems have been developed and are capable of automatically tagging words, reaching accuracy ratios around 96%. The current thesis is based on a Machine Learning (Koleli, 2011).
|
---|