Abstract : | Η διατήρηση της πολιτιστικής κληρονομιάς είναι ένα ζήτημα το οποίο απασχολεί ιδιαίτερα τον σύγχρονο κόσμο και πλέον αποτελεί βασικό πεδίο του τομέα των Ψηφιακών Επιστημών. Πιο συγκεκριμένα, όταν πρόκειται για χειρόγραφα ιστορικά έγγραφα, ο τομέας της Ψηφιακής Παλαιογραφίας έχει σημειώσει μεγάλη πρόοδο στην ανάλυση των εγγράφων. Οι τεχνικές που χρησιμοποιεί η Ψηφιακή Παλαιογραφία, αφενός δεν είναι καινούργιες, αφετέρου δεν δημιουργήθηκαν λόγω της άνθηση της επιστήμης της Πληροφορικής. Η συμβολή της Πληροφορικής έγκειται στο γεγονός πως κατέστησε πιο προσιτές τις μεθόδους του τομέα της Παλαιογραφίας στην ερευνητική κοινότητα και παράλληλα την διευκόλυνε. Η χρήση της Πληροφορικής για τις Ανθρωπιστικές Επιστήμες εντοπίζεται σε διαδικασίες όπως η επεξεργασία εικόνας και η εξόρυξη δεδομένων, οι οποίες μπορούν να διαφωτίσουν την έρευνα των χειρόγραφων εγγράφων. Η Αναγνώριση Χειρόγραφου Κειμένου (Handwritten Text Recognition ή αλλιώς HTR) αφορά την αυτοματοποιημένη μεταγραφή ενός κειμένου από μια εικόνα στην ψηφιακή του μορφή και συχνά προκαλεί σφάλματα (π.χ. γραμματικά) λόγω πολλών παραγόντων, όπως τον γραφικό χαρακτήρα ή τη κατάσταση του χειρόγραφου (π.χ. αν είναι βρώμικο ή σκονισμένο). Σε αυτή τη διπλωματική εργασία εισάγουμε ένα νέο HTR dataset, βασισμένο στο dataset που χρησιμοποιήθηκε για τον διαγωνισμό HTREC 2022, διοργανωμένο από το Πανεπιστήμιο Ca’ Foscari της Βενετίας, με κύριο στόχο τη βελτίωση των αυτόματων μεταγραφών από ελληνικά χειρόγραφα και παπύρους. Κύριος σκοπός ήταν η συγκριτική αξιολόγηση των αυτοματοποιημένων μεταγραφών που παρήγαγε το σύστημα HTR από μεσαιωνικά χειρόγραφα. Τα τελευταία περιλαμβάνουν κείμενα, τα οποία παρουσιάζουν μια ποικιλομορφία ως προς τα χρονικά και διαλεκτικά επίπεδα των Ελληνικών. Αυτή θα επιτευχθεί μέσω της ταξινόμησης των τύπων σφαλμάτων. Η κατηγοριοποίηση των σφαλμάτων που προκύπτουν από το σύστημα αυτόματης μεταγραφής, μπορεί να διαφωτίσει την έρευνα ως προς την αποτυχία του συστήματος να μεταγράψει με υψηλή ακρίβεια το κείμενο που βρίσκεται στη ψηφιακή μορφή του χειρόγραφου. Τέλος, είναι αξιοσημείωτο το γεγονός πως πρόκειται για την πρώτη αυτοματοποιημένη ανάλυση σφαλμάτων αυτόματης μεταγραφής. One of the main duties of the field of Digital Humanities is the preservation of cultural heritage. Especially when it comes to handwritten historical documents, the field of Digital Paleography has made great progress in document analysis. The techniques used by Digital Paleography are not new nor have been created based on the rising of Computer Vision sciences, but they were eased up from them and became more affordable for the research community. To be more specific, the usage of Computer Science for the Humanities lies in procedures such as image processing and data mining, which can enlighten the research of handwritten documents. Handwritten Text Recognition (HTR) regards the automated transcription of a text from an image to its digital form and often produces errors (e.g., grammatical) due to many factors, such as handwriting style or the condition of the manuscript (e.g. if it’s dirty or dusty). In this thesis, we introduce a new HTR Dataset, based on the dataset used for the HTREC 2022 challenge, organized by Ca’ Foscari University of Venice with main aim the improving of the HTR output of Greek papyri and Byzantine manuscripts. The main purpose was the benchmarking of the automated transcriptions that Handwritten Text Recognition generated from medieval manuscripts. Those manuscripts contain texts that are being characterized by variety in periods and dialects in Greek. The latter will be achieved via Error Type Classification. Categorizing the types of errors that occur from the transcribing system, may enlighten the research for the failure of the machine to transcribe with high accuracy the text that is being depicted in the digitized version of the manuscript. It is worth mentioning that this is the first automated analysis of transcription errors.
|
---|