Περίληψη : | A food recall can be described as the actions taken by a food producer or organization to remove a product off the market because there is reason to believe that it may cause consumers to become ill. This thesis will focus on developing and training text classifiers with data from food recalls which will subsequently be used to produce labels for unlabeled food recalls. The goal is to apply the trained classifier on a set of more than 1000 announcements about product recalls. Each food recall contains the official announcement in textual form and the specific hazard and product types. In the first part we classify each food recall on the specific product and hazard types. For this task, we employed two machine learning models, a Random Forest (RF) and a Support Vector Classifier (SVC), and a scaled cross lingual sentence encoder, the XLM-Roberta (XLMR). For the second part of this thesis, we used the best performing model from the classification part to produce labels for unlabeled food recall incidents, in order to provide statistics about the most frequently recalled products and most frequent hazards. Η παρoύσα διπλωματική εργασία επικεντρώνεται στην ανάπτυξη και εκπαίδευση μοντέλων μηχανικής μάθησης, χρησιμοποιώντας δεδομένα κειμένου από ανακλήσεις προϊόντων, που στη συνέχεια θα χρησιμοποιθούν για να επισημειώσουν ανακλήσεις προϊόντων που δεν έχουν ήδη επισημειωθεί από κάποιον ειδικό, με τον ακριβή κίνδυνο και προϊόν. Μια ανάκληση προϊόντος ορίζεται ως η διαδικασία που αναλαμβάνει ένας έμπορος φαγητών ή ένας οργανισμός υγείας, προκειμένου να αφαιρεθούν από την αγορά πιθανώς επιβλαβή, για την υγεία του καταναλωτή, προϊόντα. Ο πρώτος στόχος μας είναι να χρησιμοποιήσουμε τα μοντέλα μηχανικής μάθησης σε παραπάνω από 1000 ανακοινώσεις ανάκλησης προϊόντων. Κάθε ανάκληση, εμπεριέχει την επίσημη ανακοίνωση σε μορφή κειμένου, όπως επίσης και τον ακριβή κίνδυνο και προϊόν. Για αυτό το σκοπό, χρησιμοποιήσαμε δύο μοντέλα μηχανικής μάθησης , έναν Random Forest (RF) και έναν Support Vector Classifier (SVC), καθώς επίσης και έναν κλιμακωτό διαγλωσσικό κωδικοποιητή προτάσεων, γνωστό και ως XLM-Roberta (XLMR). Για το δεύτερο κομμάτι της εργασίας, χρησιμοποιήσαμε το καλύτερο μοντέλο του πρώτου κομματιού, προκειμένου να επισημειώσουμε όσο το δυνατόν καλύτερα, ανακλήσεις προϊόντων για τις οποίες δεν είχαμε πρώτερη γνωστή επισημείωση και στην συνέχεια να αναλύσουμε τα πιο συχνά ανακλημένα προϊόντα και τους πιο συχνούς κινδύνους .
|
---|