Abstract : | Αυτή η διατριβή αφορά την ομαδοποίηση δεδομένων αποτυχημένης απόκρισης Α.Ι. συνομιλίας που λειτουργούν σε συχνή βάση ερωτήσεων-απαντήσεων. Επιπλέον, κάθε υλοποίηση προϋποθέτει συγκεκριμένες παροχές που χρειάζεται να απευθυνθούν, πάντα σύμφωνα με τις ανάγκες και την πολιτική του marketing της επιχείρησης. Ένας από τους πιο σημαντικούς παράγοντες στην υλοποίηση ενός A.I. είναι η εξατομίκευση της απάντησης και η δυνατότητα συνεχούς επέκτασης βάσης. Για το λόγο αυτό, υπάρχει πρακτικα απαίτηση να αναθεωρείται και να επανεξετάζονται τα συχνά Q-A. Επιπλέον, σε αρκετες περιπτώσεις ερωτήσεων τα θέματα έχουν επιλυθεί, αλλά δεν αναγνωριζεται η πρόθεση συνομήλιας. Μολονότι το συνολικό ποσοστό επιτυχίας είναι ψηλό, συνέχεια καιροφυλακτεί ο κίνδυνος για υπερφόρτωση του τηλεφωνικου κεντρου απο τον αριθμο πολλων αναπάντητων ερωτημάτων. Ένα σημαντικό ζήτημα του Α.Ι. λοιπόν είναι η ικανότητα των αλγορίθμων ομαδοποίησης να βελτιώσουν τη συλλογη αγνωστων ερωτημάτων. Επιπλέον, ακόμα και τα σύγχρονα μεγάλα γλωσσικά μοντέλα δεν ενδείκνυνται για ομαδοποίηση κι ουτε δούλευαν ικανοποιητικά. Το πρόβλημα ξεκινούσε από τη φύση των δεδομένων που δεν αναγνωρίζονται από το σύστημα. Από τη μια υπάρχουν θέματα που δεν έχουν λυθεί, ενώ από την άλλη είναι κάποια από λυμένα θέματα που παρερμηνευονται. Ως επι τουτου, για την συλλογή νέων δεδομενων από ερωτήσεις που δεν απαντήθηκαν προτείνεται ένας αλγόριθμος διαμερισματοποίησης. Βασιζόμενος σε υπαρχοντα προγραμματα, ο αλγόριθμος αυτος είναι ένας απλός και κομψος τροπος που προκυπτει τελειως λογικα. Τέλος, αυτό προτείνεται σα μια βελτιωμένη υλοποίηση του δηικου προγράμματος της Clustering Using SIlhouette Coefficient, δηλαδή του CLUSCO. Εν τέλει, πειραματικά αποτελέσματα του προγράμματος Sequence Matching Silhouette Coefficient Clustering, δηλαδή του προτεινομενου SMSCC αξιολογούνται και ερμηνεύονται. Τελικά, ένα συχνό πρόβλημα αλγορίθμων ομαδοποίησης στη μηχανικης μαθησης αντιμετωπίζεται. Μέχρι τώρα κανείς δεν ήξερε γιατί τα τεχνητά δεδομένα ειναι σχεδον αδύνατο να ομαδοποιηθούν. Κατα συνεπεια, απο τα αποτελεσματα που προκυπτουν δινεται μια συντομη διαισθητική ερμηνεία για το σχετικό πρόβλημα καθως και οι λογικές επιπλοκές που μας περιορίζουν. This thesis is about clustering failed response data from implemented chat-bots that operate on frequent Q-A basis. Furthermore, upon each unique implementation there are specific aspects that are addressed according to customer-service’s needs and policies. One of the important factors in the endeavour to manifest a chat A.I. that works as such, is the adopted corporal reply of each enterprise. For this reason, there is a constant demand to review and expand the frequent Q-A basis, as minor changes or seasonal packages require addressing anew. Additionally, on a retrospect there are some cases of frequently unanswered questions that have been resolved on the Q-A, yet have not prompted a success status. Moreover, there is a high success rate overall; a major issue of such venture is the ineptitude of traditional algorithms as well as state of the art implementations that cluster failed response data sensibly and efficiently. The problem stems from the nature of failed data. On the one hand there are new issues that are unresolved and on the other hand some of the resolved issues are poorly understood. Owing to this fact, a novel partitioning algorithm is proposed, which is as simple and elegant of a solution as a novelty on its own right. Finally, a custom implementation of the dual program of the clustering using silhouette coefficient program, that is CLUSCO, is proposed. Lastly, experimental results of the Sequence Matching Silhouette Coefficient Clustering program, that is SMSCC, are evaluated and discussed. Eventually, a reoccurring ML clustering algorithm problem is confronted; from that ”the vertical-axis cluster” conjecture is formed and is briefly mentioned.
|
---|