Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Automatic detection of sections and paragraphs in legal documents

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsen
dc.contributor.opponentKotidis, Yannisen
dc.contributor.opponentVassalos, Vasiliosen
dc.contributor.thesisadvisorAndroutsopoulos, Ionen
dc.creatorΒλάχος, Χρήστοςel
dc.creatorVlachos, Christosen
dc.date.accessioned2025-03-26T20:08:49Z
dc.date.available2025-03-26T20:08:49Z
dc.date.issued14-12-2022
dc.date.submitted2023-02-03 20:10:21
dc.description.abstractΗ ανάλυση εγγράφων είναι μία διαδικασία που εστιάζει στην επεξεργασία εγγράφων, με σκοπό να εξάγει λεπτομέρειες που σχετίζονται με πληροφορίες όπως συναλλαγές, εμπλεκόμενα μέλη, στόχους κ.λπ. Πρόκειται για ένα θέμα, όλο και ποιο επίκαιρο στη σύγχρονη κοινωνία, λόγω της αυξανόμενης ανάγκης για μία γρήγορη, εύκολη και σαφή επεξήγηση των περιεχομένων τους, όπως στη περίπτωση των νομικών εγγράφων. Όμως, η χρήση τεχνικών Βαθιάς Μάθησης, οι οποίες θα μπορούσαν να απλοποιήσουν διαδικασίες όπως η ανάλυση διάταξης, η ταξινόμηση τομέων, κ.λπ., αποτελεί ένα σχετικά πρόσφατο θέμα. Μέχρι πρότινος, η ανάλυση εγγράφων γινόταν κατά κύριο λόγο χειρωνακτικά ή μέσω χρήσης προκαθορισμένων κανόνων. Στην παρούσα εργασία χρησιμοποιούνται τεχνικές Βαθιάς Μάθησης για την ολοκλήρωση δύο έργων σχετικών με την ανάλυση εγγράφων. Το πρώτο αφορά τον εντοπισμό παραγράφων και τίτλων σε εικόνες νομικών εγγράφων με τη χρήση τεχνικών Υπολογιστικής Όρασης και Επεξεργασίας Φυσικής Γλώσσας. Για τους σκοπούς του, έμφαση θα δοθεί σε δύο μοντέλα Υπολογιστικής Όρασης, συγκεκριμένα στα YOLOv5 και RetinaNet, τα οποία θα εκπαιδευτούν στον εντοπισμό συγκεκριμένων περιοχών κειμένου. Μετά τη διαδικασία εντοπισμού θα ακολουθήσει ένα βήμα µετα-επεξεργασίας κατά το οποίο οι περιοχές κειμένου θα ταξινομηθούν επιπλέον σε μία από τις κατηγορίες "παράγραφος" ή "τίτλος", μέσω εφαρμογής μίας απλής προσέγγισης Επεξεργασίας Φυσικής Γλώσσας με τη χρήση κανόνων. Το δεύτερο έργο σχετίζεται µε την ταξινόμηση ζωνών κειμένων. Για την επίτευξη του, δύο μοντέλα Επεξεργασίας Φυσικής Γλώσσας θα εκπαιδευτούν. Αυτά τα μοντέλα περιλαμβάνουν το RoBERTa καθώς και ένα ιεραρχικό. Το ιεραρχικό μοντέλο θα βασιστεί στις προβλέψεις του RoBERTa και θα προσπαθήσει να βελτιώσει περεταίρω τα αποτελέσματα του, συνδυάζοντάς τες με ένα επιπλέον μοντέλο. Στη διπλωματική αυτή, λεπτομέρειες θα δοθούν σχετικά με τα δεδομένα που χρησιμοποιήθηκαν, τη μεθοδολογία που ακολουθήθηκε και τα αποτελέσματα του εκάστοτε μοντέλου, σε συνδυασμό με τις δυνατότητές τους. Τέλος, επιπλέον πιθανές βελτιώσεις ή εναλλακτικές θα προταθούν.el
dc.description.abstractDocument analysis is a procedure focusing on the processing of documents in order to extract details concerning information such as transactions, involved parties, objectives etc. It is a topic most relevant in the modern society due to the increasing need for fast, easy and clear understanding of the content of documents, as is the case with legal documents. Nevertheless, the incorporation of Deep Learning techniques that could simplify procedures such as layout analysis, section classification, etc., has only been a topic of relatively recent origin. Up to that point, document analysis was mostly carried out either manually or by the use of predefined rules. This project utilizes Deep Learning approaches to complete two document analysis tasks. The first pertains to the detection of paragraphs and titles, called text blocks, in images of legal documents, using Computer Vision and Natural Language Processing techniques. For the purpose of the task, focus will be given on two Computer Vision models, namely YOLOv5 and RetinaNet, that will be trained to detect regions of text blocks. After that, a post-processing phase will be included in order to further classify these texts as either "paragraph" or "title", by means of a simple rule-based NLP approach. As per the second task, it revolves around the classification of document text zones by utilizing their textual content. For the completion of this task two NLP models will be trained. These models are a RoBERTa and a hierarchical model. The hierarchical model will be based on the RoBERTa output and will try to further improve its results by adding a second model on top. In this thesis, insight over the data used, methodologies and results will be given along with an overview of each one’s strengths and weaknesses. Finally, further possible improvements or alternatives will be discussed.en
dc.embargo.expire2023-02-03 20:10:21
dc.embargo.ruleOpen access
dc.format.extent94p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10012
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/11504
dc.languageen
dc.rightsCC BY: Attribution alone 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectΑνάλυση εγγράφωνel
dc.subjectΥπολογιστική όρασηel
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΒαθιά μάθησηel
dc.subjectΑνίχνευση αντιϰειµένωνel
dc.subjectDocument analysisen
dc.subjectComputer visionen
dc.subjectNatural Language Processing (NLP)en
dc.subjectDeep learningen
dc.subjectObject detectionen
dc.titleAutomatic detection of sections and paragraphs in legal documentsen
dc.title.alternativeΑυτόματος εντοπισμός τομέων και παραγράφων σε νομικά έγγραφαel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Vlachos_2022.pdf
Μέγεθος:
6.37 MB
Μορφότυπο:
Adobe Portable Document Format