Περίληψη : | Στο τομέα της παροχής ηλεκτρονικών συμβουλευτικών υπηρεσιών, οι πληροφορίες που αφορούν τα προϊόντα είναι καταλυτικής σημασίας και εκμεταλλεύονται ώστε να παράξουν κέρδος και οφέλη για τις επιχειρήσεις. Παρόλο τη συγκεκριμένη διαπίστωση, οι πληροφορίες που βρίσκονται διαθέσιμες στο διαδίκτυο για τα περισσότερα προϊόντα είναι φτωχές σε ποιότητα, ελάχιστες σε ποσότητα και κατά κύριο λόγο δεν παρέχουν ικανοποιητικές πληροφορίες όσον αφορά τα συστατικά των προϊόντων, τη διατροφική τους αξία καθώς και το γραμμωτό κώδικα (barcode) τους. Πληροφορίες όπως αυτές θα προσέφεραν καλύτερα ευρήματα για τα προϊόντα επειδή θα βελτίωναν ιδιαίτερα τη κατηγοριοποίηση και τη ταυτοποίηση τους. Παρόλο τον έντονο επαγγελαμτικό χαρακτήρα της παρούσας διπλωματικής εργασίας, είναι εφικτό να δημιουργηθεί έντονο κοινωνικό αντίκτυπο μέσα απο τη χρησιμοποιήση της από διάφορες εφαρμογές, όπως αποτελεί η μετάφραση γραπτού κειμένου, αφού πρώτα έχει εντοπιστεί στη συσκευασία, σε προφορικό λόγο ώστε να βοηθήσει τους ανθρώπους με προβλήματα όρασης στην διεκπεραίωση των καθημερινών τους αναγκών.Η εν λόγω διπλωματική θέτει ως κύριο στόχο της, την δημιουργία μίας λύσης για την εύρεση της τοποθεσίας, συγκεκριμένων πληροφοριών (επωνυμία προϊόντος, συστατικά, θρεπτικά στοιχεία, γραμμωτός κώδικας), στις συσκευασίες των προϊόντων με τη χρήση τεχνικών Βαθιάς Μάθησης (Deep Learning). Αρχικά, υλοποιείται μία μέθοδος αυτόματης επισημείωσης των δεδομένων (εικόνων), ώστε να μπορέσουν να χρησιμοποιηθούν τεχνικές Βαθιάς Μάθησης. Στη συνέχεια, εκπαιδεύεται ένα νευρωνικό δίκτυο ώστε να μπορεί να κατηγοριοποιεί τις μελλοντικές εικόνες των προϊόντων ανάλογα με ποια πλευρά του προϊόντος (μπροστινή, πίσω) απεικονίζουν. Στο τελικό μέρος της μελέτης, χρησιμοποιούνται τεχνικές μηχανικής όρασης (Computer Vision) και ειδικότερα ανίχνευσης περιοχής (region detection). Συγκεκριμένα αναπτύσσεται ένα Faster R-CNN δίκτυο με απώτερο σκοπό τον εντοπισμό των περιοχών της επωνυμίας, των συστατικών, των θρεπτικών στοιχείων και του γραμμωτού κώδικα, στη συσκευασία του προϊόντος.Εν κατακλείδι, το CNN που κατασκευάστηκε ώστε να κατηγοριοποιεί τις εικόνες ανάλογα με την πλευρά του προϊόντος που απεικονίζουν πετυχαίνει καλές επιδόσεις και δείχνει ότι είναι ικανό να διαχωρίσει σωστά τις πλευρές των συσκευασιών. Αντιθέτως τα αποτελέσματα που παράγει το Faster R-CNN μοντέλο που εκπαιδεύτηκε στα αυτόματα επισημειωμένα δεδομένα, δεν είναι ικανοποιητικά γεγονός που μαρτυρά πως η ποιότητα της αυτόματης επισημείωσης δεν είναι επαρκής. Απεναντίας το Faster R-CNN όταν εκπαιδεύθηκε σε μικρό σε μέγεθος αλλά χειροκίνητα επισημειωμένο σύνολο δεδομένων επέδειξε καλύτερα αποτελέσματα γεγονός που υποδηλώνει πως μια τακτική χειροκίνητης επισημείωσης πιθανότατα να είναι καταλληλότερη για την επίλυση του συγκεκριμένου προβλήματος. Συνεπώς η διπλωματική εργασία ανέδειξε την αναγκαιότητα ύπαρξης επισημειωμένων δεδομένων για την επίλυση του προβλήματος και απέδειξε πως μία προσέγγιση αυτόματης επισημείωσης των δεδομένων δεν είναι αποτελεσματική στην υπάρχουσα μορφή της και είτε θα πρέπει να αναβαθμιστεί ώστε να γίνει λειτουργική, είτε να αποφευχθεί ως προσέγγιση για το υπάρχον πρόβλημα. In the area of e-business consulting every information concerning the products, is of great importance and can be utilized in order to introduce profit to the business. Nevertheless, a lot of products found in e-shops are usually missing information, concerning their ingredients, their nutritional facts and especially their barcodes which is an important part of the product. This information can facilitate product categorization and matching which is the ultimate goal for the e-business consulting firms. In addition, although the development of this thesis aims to add value in the business world, it can also profit society with the development of a variety of applications with a social impact such as the translation of product's textual information, after being located, to sound in order to assist the visually impaired people with their everyday needs.This thesis aims to offer an approach for information localization in the product packages with the use of Deep Learning. Initially, a solution is given for the task of automatic annotation of images. Continuing, a convolutional neural network is trained to classify images according to which side of the product (front, rear) they depict. Finally, computer vision is employed and specifically region detection in product packages. A Faster R-CNN is developed in order to find the exact location of the brand, ingredients, nutrition facts and barcode regions.Reaching a conclusion, the CNN constructed for the product side categorization achieves its purpose by achieving good performance. Furthermore, as far as the automatic image annotation system is concerned, the results yielded from the Faster R-CNN trained in the automatic labelled dataset, in most of the desired classes are not encouraging which indicates that a manual labelling alternative should be considered. On the contrary, the results produced from the Faster R-CNN trained on a small manual labelled dataset are better which is an indication that the better quality of the manual labelled dataset is a determining factor. This clearly shows that such an approach is the best practice for the task and should be explored. However, the auto labelling technique constructed should not be totally discarded but a probable upgrade should be attempted in case that it would lead to satisfactory region detection results with less manual labor.
|
---|