Abstract : | Η ανάλυση εγγράφων είναι μία διαδικασία που εστιάζει στην επεξεργασία εγγράφων, με σκοπό να εξάγει λεπτομέρειες που σχετίζονται με πληροφορίες όπως συναλλαγές, εμπλεκόμενα μέλη, στόχους κ.λπ. Πρόκειται για ένα θέμα, όλο και ποιο επίκαιρο στη σύγχρονη κοινωνία, λόγω της αυξανόμενης ανάγκης για μία γρήγορη, εύκολη και σαφή επεξήγηση των περιεχομένων τους, όπως στη περίπτωση των νομικών εγγράφων. Όμως, η χρήση τεχνικών Βαθιάς Μάθησης, οι οποίες θα μπορούσαν να απλοποιήσουν διαδικασίες όπως η ανάλυση διάταξης, η ταξινόμηση τομέων, κ.λπ., αποτελεί ένα σχετικά πρόσφατο θέμα. Μέχρι πρότινος, η ανάλυση εγγράφων γινόταν κατά κύριο λόγο χειρωνακτικά ή μέσω χρήσης προκαθορισμένων κανόνων. Στην παρούσα εργασία χρησιμοποιούνται τεχνικές Βαθιάς Μάθησης για την ολοκλήρωση δύο έργων σχετικών με την ανάλυση εγγράφων. Το πρώτο αφορά τον εντοπισμό παραγράφων και τίτλων σε εικόνες νομικών εγγράφων με τη χρήση τεχνικών Υπολογιστικής Όρασης και Επεξεργασίας Φυσικής Γλώσσας. Για τους σκοπούς του, έμφαση θα δοθεί σε δύο μοντέλα Υπολογιστικής Όρασης, συγκεκριμένα στα YOLOv5 και RetinaNet, τα οποία θα εκπαιδευτούν στον εντοπισμό συγκεκριμένων περιοχών κειμένου. Μετά τη διαδικασία εντοπισμού θα ακολουθήσει ένα βήμα µετα-επεξεργασίας κατά το οποίο οι περιοχές κειμένου θα ταξινομηθούν επιπλέον σε μία από τις κατηγορίες "παράγραφος" ή "τίτλος", μέσω εφαρμογής μίας απλής προσέγγισης Επεξεργασίας Φυσικής Γλώσσας με τη χρήση κανόνων. Το δεύτερο έργο σχετίζεται µε την ταξινόμηση ζωνών κειμένων. Για την επίτευξη του, δύο μοντέλα Επεξεργασίας Φυσικής Γλώσσας θα εκπαιδευτούν. Αυτά τα μοντέλα περιλαμβάνουν το RoBERTa καθώς και ένα ιεραρχικό. Το ιεραρχικό μοντέλο θα βασιστεί στις προβλέψεις του RoBERTa και θα προσπαθήσει να βελτιώσει περεταίρω τα αποτελέσματα του, συνδυάζοντάς τες με ένα επιπλέον μοντέλο. Στη διπλωματική αυτή, λεπτομέρειες θα δοθούν σχετικά με τα δεδομένα που χρησιμοποιήθηκαν, τη μεθοδολογία που ακολουθήθηκε και τα αποτελέσματα του εκάστοτε μοντέλου, σε συνδυασμό με τις δυνατότητές τους. Τέλος, επιπλέον πιθανές βελτιώσεις ή εναλλακτικές θα προταθούν. Document analysis is a procedure focusing on the processing of documents in order to extract details concerning information such as transactions, involved parties, objectives etc. It is a topic most relevant in the modern society due to the increasing need for fast, easy and clear understanding of the content of documents, as is the case with legal documents. Nevertheless, the incorporation of Deep Learning techniques that could simplify procedures such as layout analysis, section classification, etc., has only been a topic of relatively recent origin. Up to that point, document analysis was mostly carried out either manually or by the use of predefined rules. This project utilizes Deep Learning approaches to complete two document analysis tasks. The first pertains to the detection of paragraphs and titles, called text blocks, in images of legal documents, using Computer Vision and Natural Language Processing techniques. For the purpose of the task, focus will be given on two Computer Vision models, namely YOLOv5 and RetinaNet, that will be trained to detect regions of text blocks. After that, a post-processing phase will be included in order to further classify these texts as either "paragraph" or "title", by means of a simple rule-based NLP approach. As per the second task, it revolves around the classification of document text zones by utilizing their textual content. For the completion of this task two NLP models will be trained. These models are a RoBERTa and a hierarchical model. The hierarchical model will be based on the RoBERTa output and will try to further improve its results by adding a second model on top. In this thesis, insight over the data used, methodologies and results will be given along with an overview of each one’s strengths and weaknesses. Finally, further possible improvements or alternatives will be discussed.
|
---|