Abstract : | Σην παρούσα διπλωματική εργασία, έγινε χρήση μοντέλων μηχανικής και βαθιάς μάθησης με σκόπο την ταξινόμηση κειμένων που σχετίζονται με ανακλήσεις τροφίμων. Η ανάκληση τροφίμων ορίζεται ως: “Δράσεις που λήφθηκαν για την απομάκρυνση από την αγορά, τη διανομή και την κατανάλωση, τροφίμων που ενδέχεται να αποτελούν κίνδυνο για τους καταναλωτές”. Κάθε ανάκληση τροφίμου είναι ένα κείμενο που περιέχει το είδος του προϊόντος που ανακλήθηκε, το συγκεκριμένο προϊόν, την κατηγορία του κινδύνου που ανήκει και τον συγκεκριμένο κίνδυνο. Τα πειράματα βασίστηκαν στην ταξινόμηση κάθε ανάκλησης τροφίμου στις προηγούμενες κατηγορίες. Αρχικα, ταξινομήσαμε τις ανακλήσεις στις κυριότερες κατηγορίες κινδύνου και προϊόντος χρησιμοποιώντας δύο μοντέλα μηχανικής μάθησης, ένα Logistic Regression και ένανRandom Forests Classifier. Έπειτα, έπρεπε να ταξινομήσουμε τις ανακλήσεις στην ακριβή κατηγορία κινδύνου και προϊόντος. Καθώς το πρόβλημα αυτό είναι αυξημένης δυσκολίας, εκπαιδεύσαμε μοντέλα βαθιάς μάθησης, όπως Ανατροφοδοτούμενα Νευρωνικά Δίκτυα αμφίδρομης ή απλής κατεύθυνσης (LSTM καιBiLSTM), και συγκρίναμε την επίδοση τους με μοντέλα μηχανικής μάθησης, έναν SVM και έναν Random Forests Classifier. Σε κάθε πείραμα, τα μοντέλα βαθιάς μάθησης είχαν καλύτερη επίδοση από τα υπόλοιπα, ειδικά στην ταξινόμηση ανακλήσεων στις κατηγορίες κινδύνου. In this, thesis we experimented with machine and deep learning models in order to apply text classification on food recalls from online announcements. A food recall is defined as: “Action taken to remove from sale, distribution and consumption foods which may pose a safety risk to consumers”. Each food recall is a text, which includes the kind of the product that have been removed, the specific product, the kind of the hazard of the product and the specific hazard. Initially, we classified food recalls on the kind of hazard and product type they belong to, using two machine learning models, the Logistic Regression and the Random Forests Classifier. Then, we had to classify each recall on all the different specific products and hazards. For that purpose, we developed deep neural networks, like Recurrent Neural Networks (RNNs) with Long short-term memory (LSTM) architecture and LSTMs with bidirectional strategy, and we compared their performance with two baseline models, the SVM Classifier and a Random Forests Classifier. In every experiment, deep neural networks outperformed the baseline models, especially on the classification on the hazard types.
|
---|