Abstract : | Σε αυτή την εργασία παρουσιάζεται η προσπάθεια αυτόματης αναγνώρισης και κατηγοριοποίησης παραστατικών, με βάση τις πληροφορίες που υπάρχουν διαθέσιμες από την πολυετή δράση της εταιρίας Information Systems Impact στην ηλεκτρονική ανταλλαγή εγγράφων και δομημένης πληροφορίας (EDI), με το συνολικό αριθμό των παραστατικών να ξεπερνούν τα 40 εκατομμύρια. Οι ήδη υπάρχοντες μηχανισμοί αναγνώρισης εγγράφων που χρησιμοποιήθηκαν, αποτελούν Human – Driven διαδικασίες κατά τις οποίες τα στοιχεία ενός παραστατικού αναγνωρίζονται με τη χρήση του χώρου. Η κάθε μία από τις παραπάνω Human – Driven διαδικασίες περιλαμβάνει τις μορφές αξιών και ημερομηνιών, το διαχωρισμό του εκάστοτε παραστατικού σε 3 περιοχές (Κεφαλίδα, Γραμμές και Συνολικές αξίες) και το σύνολο πεδίων που την αποτελούν που υπάρχουν σε αυτές τις περιοχές.Στο παραπάνω σύνολο των πληροφοριών, δημιουργήθηκε ένας μηχανισμός για τη συλλογή των δεδομένων, χρησιμοποιήθηκε Computer Vision για το διαχωρισμό των περιοχών των παραστατικών και text classification για την κατηγοριοποίηση των λέξεων που υπάρχουν σε κάθε περιοχή, πάνω στις οποίες εφαρμόστηκαν τεχνικές επεξεργασίας κειμένων. Τέλος, χρησιμοποιήθηκαν και δένδρα απόφασης για την κατηγοριοποίηση του παραστατικού. Το σύνολο των χαρακτηριστικών που εξάχθηκαν, χωρίστηκε σε ένα σύνολο εκπαίδευσης και ένα σύνολο ελέγχου. Το σύνολο εκπαίδευσης χρησιμοποιήθηκε για την εκπαίδευση του δένδρου απόφασης και το σύνολο ελέγχου για την τελική αναγνώριση και κατηγοριοποίηση του παραστατικού.Τα αποτελέσματα θα ελεγχθούν με βάση την εμπειρία των χρηστών πάνω στις παραπάνω διαδικασίες. This paper presents the attempt to automatically identify and categorize documents based on information available from the multi-year action of Information Systems Impact in electronic document exchange and structured information (EDI), with a total number of documents exceeding 40 million. The existing document recognition mechanisms that were used, are Human - Driven processes in which the elements of a document are identified using coordinates.Each of the above-mentioned Human-Driven processes includes the formats of values and dates, the separation of each document into 3 areas (Header, Lines and Footer) and the set of fields that are present in these areas.In the above set of information, a mechanism was created for data collection, Computer Vision was used to separate the document areas and text classification to categorize the words in each area on which text editing techniques were applied. Finally, decision trees were used to categorize the documents. The set of exported features was divided into training set and a test set. The training set was used to train the decision tree and the test set for the final identification and categorization of the document.The results were tested based on user experience on the above procedures.
|
---|