Abstract : | Web log data have been used for analysis from the late 90s with the upsurge of the Internet and the Websites containing different categories that a user can click, and consequently generating a path on the website called clickstream data.With the vast increase of the usage of e-shops that can generate a much larger profit than smallshops, there is an increase in the interest of being able to predict real-time if a user is likely searching for a purchase (in order for the agents to propose him/her something appealing to send them in the right direction) or if a user is likely to defer (in order not to spend much effort and resources trying to pursue them).Using Higher-order Markov chain modeling (used in Random Clicks method and Bayes Factor method) as well as Probabilistic Suffix Trees (a case of Variable-length Markov chain models, which was predominantly used for Protein detection), we will explore the prediction for each individual session length, starting from the 2nd click of the user up to the 10th click. Moreover, we will use k-means clustering method in order to classify the sessions for the purpose of making a more visual association for which variables influence the conversion rate of the session. Since we want real-time prediction, using time for prediction is out of scope but is a valuable information nonetheless.For each of the three methods, we will also illustrate two examples (one session that ended in buy and the other in defer) in order to compare how well the models are fitted in each case. Due to the imbalance of the dataset (low conversion rate and dominant category over the others), the main metric that will be used in determining the forecasting ability is the average precision. Τα δεδομένα καταγραφής ιστότοπου έχουν χρησιμοποιηθεί για ανάλυση από τα τέλη της δεκαετίας του '90 με την αύξηση της χρήσης του Διαδικτύου για ιστοσελίδες που περιέχουν διαφορετικές κατηγορίες που μπορεί να επιλέξει ένας χρήστης και, κατά συνέπεια, δημιουργώντας μια διαδρομή στον ιστότοπο που ονομάζονται δεδομένα clickstream.Με την εξάπλωση της χρήσης των ηλεκτρονικών καταστημάτων που μπορούν να αποφέρουν πολλά περισσότερα κέρδη από τα μικρά καταστήματα, υπάρχει αύξηση του ενδιαφέροντος να είναι δυνατή η πρόβλεψη σε πραγματικό χρόνο εάν κάποιος χρήστης πιθανώς ψάχνει για μια αγορά (προκειμένου οι πράκτορες να του προτείνουν κάτι ελκυστικό ώστε να τους στείλει προς τη σωστή κατεύθυνση) ή εάν ο χρήστης είναι πιθανό να αναβάλει.Χρησιμοποιώντας την μοντελοποίηση Αλυσίδας Μάρκοφ ανώτερης τάξης (που χρησιμοποιείται στη μέθοδο Random Clicks και τη μέθοδο Bayes Factor) καθώς και Probabilistic Suffix Trees (περίπτωση μοντέλων Αλυσίδας Μάρκοφ μεταβλητού μήκους, τα οποία χρησιμοποιήθηκαν κυρίως για ανίχνευση πρωτεϊνών), θα διερευνήσουμε την πρόβλεψη για κάθε μεμονωμένο μήκος συνεδρίας, ξεκινώντας από το 2ο κλικ του χρήστη έως το 10o κλικ. Επιπλέον, θα χρησιμοποιήσουμε τη μέθοδο ομαδοποίησης k-means για να ταξινομήσουμε τις συνεδρίες με σκοπό να κάνουμε μια πιο οπτική συσχέτιση για την οποία οι μεταβλητές επηρεάζουν τον ρυθμό μετατροπής σε αγορά κατά την περιόδου συνεδρίας. Δεδομένου ότι θέλουμε την πρόβλεψη σε πραγματικό χρόνο, η χρήση του χρόνου για την πρόβλεψη είναι εκτός πεδίου εφαρμογής, αλλά αποτελεί πάντοτε πολύτιμη πληροφορία.Για καθεμία από τις τρεις μεθόδους, θα παρουσιάσουμε επίσης δύο παραδείγματα (μία συνεδρία που τελείωσε στην αγορά και η άλλη αναβλήθηκε), προκειμένου να συγκριθεί πόσο καλά προσαρμόζονται τα μοντέλα σε κάθε περίπτωση. Λόγω της ανισορροπίας του συνόλου δεδομένων (χαμηλός ρυθμός μετατροπής σε αγορά και κυρίαρχη μια κατηγορία έναντι των άλλων), η κύρια μετρική που θα χρησιμοποιηθεί για τον προσδιορισμό της ικανότητας πρόβλεψης είναι η μέση ακρίβεια.
|
---|