Συλλογές
Τίτλος Key information retrieval and borderless table location in scanned legal documents
Εναλλακτικός τίτλος Ανάκτηση σημαντικών πληροφοριών και εντοπισμός πινάκων χωρίς όρια σε σαρωμένα νομικά έγγραφα
Δημιουργός Antoniozas, Panagiotis, Αντώνιοζας, Παναγιώτης
Συντελεστής Athens University of Economics and Business, Department of Informatics
Malakasiotis, Prodromos
Vassalos, Vasilios
Androutsopoulos, Ion
Τύπος Text
Φυσική περιγραφή 100p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11073
Περίληψη The importance of object detection and key information retrieval within legal documents is growing in today's society as AI models become more capable of handling these challenges. While object location and key information retrieval may seem closely related, the latter typically involves a more in-depth analysis of document content and structure, going beyond simply identifying individual objects. This work specifically focuses on the intersection of technology and legal science, aiming to examine how deep learning can redefine the norms that have existed for years in the processing of legal documents. Additionally, it proposes methodologies to address these challenges while simultaneously offering services to Cognitiv+. The study is divided into two parts. The first part focuses on retrieving key information, specifically targeting two crucial elements in invoices: the issue date and the total invoice price. Two distinct approaches are used for this purpose. The first approach utilizes highly efficient, state-of-the-art, ready-to-use question-answering models such as GPT-4 Vision, IDEFICS, and the smaller-sized Layoutlm-invoices, a variant of LayoutLM developed by Impira. The second approach involves annotating invoices and training the latest version of the LayoutLM-base model for sequence classification. The second part of the research focuses on object location, specifically targeting financial statements with a focus on locating borderless tables, which are a common format inside these legal documents. Additionally, an optional goal is to extract both their structure and data in Excel format. Two distinct approaches are pursued for this task. In the first approach, ready-to-use variants from popular object detection models, such as DETR and YOLOv8, which have been fine-tuned on a dataset similar to the given one, are employed. Meanwhile, the second approach involves training a YOLOv8 model after a meticulous annotation process. The most effective model is then utilized for the optional task of table extraction. This involves supplying segmented tables to Img2Table, which is a Python library for facilitating the extraction of tabular information in the desired format. This thesis offers detailed insights into the data, methodology, annotation steps, and results of each model. Additionally, it discusses potential reasons for the success or failure of the models and proposes additional enhancements or alternative methods that can be pursued.
Η σημασία της ανάκτησης σημαντικών στοιχείων (key information retrieval) και ο εντοπισμός αντικειμένων (object detection) σε νομικά έγγραφα αυξάνεται με την πάροδο των χρόνων, καθώς τα μοντέλα τεχνητής νοημοσύνης (AI) γίνονται ολοένα και πιο ικανά να λύσουν τέτοιου είδους προβλήματα. Μπορεί ο εντοπισμός αντικειμένων και η ανάκτηση σημαντικών στοιχείων να είναι δυο διαδικασίες που μοιάζουν μεταξύ τους, αλλά η τελευταία περιλαμβάνει μια πιο περιεκτική ανάλυση του περιεχομένου και της δομής των εγγράφων, περνώντας πέρα από τον απλό εντοπισμό αντικειμένων μέσα σε αυτά. Αυτή η εργασία επικεντρώνεται ειδικά στον συνδυασμό τεχνολογίας και νομικής επιστήμης, με στόχο να εξετάσει πώς η βαθιά μάθηση (deep learning) μπορεί να επαναπροσδιορίσει τις σταθερές που υπάρχουν για χρόνια στην επεξεργασία νομικών εγγράφων. Επιπρόσθετα προτείνει ολοκληρωμένες μεθοδολογίες για την επίλυση τέτοιου είδους προβλημάτων εντοπισμού, ενώ παράλληλα παρέχει υπηρεσίες στην Cognitiv+. Η μελέτη αυτή διαιρείται σε δύο μέρη. Το πρώτο μέρος επικεντρώνεται στο πρόβλημα ανάκτησης σημαντικών στοιχείων και έχει ως στόχο τον εντοπισμό δύο κρίσιμων στοιχείων που υπάρχουν στα τιμολόγια: την ημερομηνία έκδοσης και το συνολικό ποσό ενός τιμολογίου. Για τον σκοπό αυτό χρησιμοποιούνται δύο διαφορετικές προσεγγίσεις. Η πρώτη χρησιμοποιεί τελευταίας τεχνολογίας έτοιμα προς χρήση μοντέλα ερωταπαντήσεων όπως το GPT-4 Vision, το IDEFICS, καθώς και το μικρότερο Layoutlm-invoices, μια παραλλαγή του γνωστού LayoutLM απο την Impira. Η δεύτερη προσέγγιση περιλαμβάνει την επισημείωση (annotation) των τιμολογίων και την εκπαίδευση της πιο πρόσφατης έκδοσης του μοντέλου LayoutLM-base για κατηγοριοποίηση ακολουθιών (sequence classification). Το δεύτερο μέρος της έρευνας εστιάζει στον εντοπισμό αντικειμένων και πιο συγκεκριμένα τον εντοπισμό πινάκων χωρίς όρια (borderless tables) που είναι μια συνήθης μορφή σε οικονομικούς απολογισμούς. Επίσης προαιρετικός στόχος αποτελεί και η εξαγωγή των δεδομένων και της δομής από αυτούς τους πίνακες. Για την επίλυση αυτού του προβλήματος, ακολουθούνται δύο διαφορετικές προσεγγίσεις. Η πρώτη χρησιμοποιεί παραλλαγές από γνωστά για την αποτελεσματικότητα τους έτοιμα προς χρήση μοντέλα ανίχνευσης αντικειμένων (object detection models), που είναι ήδη εκπαιδευμένα σε δεδομένα σχετικά παρόμοια με αυτά που έχουμε στην διάθεση μας, όπως το DETR και το YOLOv8. H δεύτερη προσέγγιση περιλαμβάνει την εκπαίδευση ενός μοντέλου YOLOv8 μετά από την διαδικασία επισημείωσης των δεδομένων. Το πιο αποτελεσματικό μοντέλο από τα παραπάνω θα χρησιμοποιηθεί στη συνέχεια για την εξαγωγή πινάκων από τα σαρωμένα αρχεία (scanned documents), τροφοδοτώντας τους εντοπισμένους πίνακες στην Img2Table, που είναι μια βιβλιοθήκη της Python η οποία μπορεί να εξάγει την δομή και την πληροφορία των πινάκων στην επιθυμητή μορφή. Γενικότερα, αυτή η εργασία παρέχει λεπτομερείς πληροφορίες για τα δεδομένα, τη μεθοδολογία που ακολουθήθηκε, τα βήματα επισημείωσης των δεδομένων και τα αποτελέσματα κάθε μοντέλου, μαζί με πιθανούς λόγους επιτυχίας ή αποτυχίας τους. Τέλος, προτάσσονται επιπλέον πιθανές βελτιώσεις ή εναλλακτικές μέθοδοι που μπορούσαν να εξεταστούν.
Λέξη κλειδί Object detection
Scanned documents
Borderless tables
LayoutLM
YOLO
Ανάκτηση σημαντικών στοιχείων
Εντοπισμός αντικειμένων
Σαρωμένα έγγραφα
Πίνακες χωρίς όρια
Key information retrieval
Διαθέσιμο από 2024-03-13 17:58:01
Ημερομηνία έκδοσης 13-03-2024
Ημερομηνία κατάθεσης 2024-03-13 17:58:01
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/