Συλλογές | |
---|---|
Τίτλος |
Σύστημα για μελέτη και πειραματική αποτίμηση αλγορίθμων μείωσης διάστασης |
Δημιουργός |
Μπιράτσης, Αλέξανδρος-Ερβάν |
Συντελεστής |
Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Βαζιργιάννης, Μιχαήλ |
Τύπος |
Text |
Φυσική περιγραφή |
184σ. |
Γλώσσα |
el |
Περίληψη |
Η εξόρυξη δεδομένων (data mining) αποτελεί σήμερα έναν από τους πλέον δημοφιλείς τομείς της επιστήμης των υπολογιστών. Οι απαιτήσεις των επιχειρήσεων για επεξεργασία και άντληση γνώσης από τα δεδομένα τους αυξάνονται με ραγδαίους ρυθμούς καθώς τα οφέλη που προκύπτουν αποτελούν πλέον απαραίτητο κριτήριο επιτυχίας. Η εξόρυξη δεδομένων χρησιμοποιείται σήμερα ευρέως σε πολλές επιστημονικές και εμπορικές εφαρμογές όπως η ιατρική, τραπεζικές εφαρμογές, αστρολογία, μάρκετινγκ κα. Η χρήση των μεθόδων αυτών αποτελεί ένα απαραίτητο εργαλείο για μεγάλου και μεσαίου μεγέθους επιχειρήσεις ο οποίες αντλούν την πληροφορία που προκύπτει από τους μηχανισμούς εξόρυξης δεδομένων ώστε να πάρουν στρατηγικές αποφάσεις για τον καθορισμό της μελλοντικής πορείας της επιχείρησης αλλά και για την κάλυψη των τρεχόντων αναγκών. Η χρήση των μηχανισμών εξατομίκευσης προτιμήσεων (recommender systems) έχει συντελέσει σημαντικά στην εξάπλωση των ηλεκτρονικών αγορών (e-commerce) καθιστώντας ευκολότερη την εύρεση των προϊόντων που ενδιαφέρουν τους χρήστες. Οι μηχανισμοί αυτοί (με αποκορύφωση τη μέθοδο του collaborative filtering) συλλέγουν δεδομένα από το ιστορικό των χρηστών και στη συνέχεια εξάγουν συμπεράσματα (με τη μορφή των προτάσεων) για τις προτιμήσεις που έχει κάθε χρήστης. Τέτοια παραδείγματα συναντάμε σε δημοφιλείς εφαρμογές όπως το eBay, Amazon, YouTube κα.Οι εφαρμογές που προαναφέρθηκαν όμως, συχνά χειρίζονται δεδομένα μεγάλου όγκου με αποτέλεσμα, η γρήγορη και αποτελεσματική διαχείριση τους να αποτελεί πρόκληση ακόμη και στη σημερινή εποχή όπου, η ισχύς των επεξεργαστών και το μέγεθος της διαθέσιμης μνήμης των υπολογιστών έχουν αυξηθεί σημαντικά σε σχέση με το παρελθόν. Το παρόν κείμενο έχει σκοπό την περιγραφή ενός συστήματος το οποίο δίνει τη δυνατότητα διαχείρισης και απεικόνισης δεδομένων μεγάλου μεγέθους, ώστε να καθίσταται δυνατή η επεξεργασία των δεδομένων αυτών από τους μηχανισμούς εξόρυξης δεδομένων. Συγκεκριμένα η λύση που προτείνουμε διευκολύνει τη διαδικασία εξόρυξης γνώσης προσφέροντας τις ακόλουθες λειτουργίες:• Επιλογή προέλευσης δεδομένων. Ο χρήστης επιλέγει την προέλευση των δεδομένων, είτε από αρχείο κειμένου (καθορίζοντας τη μορφή που έχει το αρχείο), είτε επιλέγοντας μια από τις δημοφιλείς σχεσιακές βάσεις δεδομένων όπως Oracle, SQL Server, MySql, Access.• Επεξεργασία των δεδομένων. Δίνεται η δυνατότητα τροποποίησης των τιμών που έχουν τα δεδομένα, είτε με απλή αντικατάσταση, είτε εφαρμόζοντας απλές μαθηματικές πράξεις (πρόσθεση, πολλαπλασιασμός) σε μια διάσταση (dimension) των δεδομένων.• Μείωση διάστασης. Η εφαρμογή παρέχει δύο τρόπους εκτέλεσης αλγορίθμων μείωσης διάστασης (dimensionality reduction algorithms). Ο πρώτος είναι δίνοντας τη δυνατότητα στο χρήστη να εκτελέσει κάποιον αλγόριθμο που βρίσκεται σε ένα Matlab αρχείο και ο δεύτερος επιλέγοντας έναν από τους προκαθορισμένους αλγόριθμούς που περιέχονται στο πακέτο drtoolbox, το οποίο θα μελετήσουμε εκτενέστερα στη συνέχεια.• Αποθήκευση και Μορφοποίηση των αποτελεσμάτων. Η εφαρμογή δίνει τη δυνατότητα στο χρήστη να αποθηκεύσει τα δεδομένα που προκύπτουν από τη μείωση διάστασης, αλλά και να καθορίσει τη μορφή που θα έχουν τα δεδομένα αυτά (Arff αρχεία, αρχείο κειμένου, βάση δεδομένων).• Γραφική απεικόνιση των αποτελεσμάτων. Η αποτίμηση των αποτελεσμάτων διευκολύνεται με τη χρήση κατάλληλων διαγραμμάτων που απεικονίζουν τα αποτελέσματα της διαδικασίας μείωσης διάστασης.• Αλληλεπίδραση με το σύστημα εξόρυξης γνώσης Weka. Η εφαρμογή παρέχει τη δυνατότητα εκτέλεσης διαδικασιών (modules) του Weka.Η λειτουργικότητα που περιγράψαμε παραπάνω στοχεύει στη δημιουργία ενός συστήματος το οποίο καθιστά εύκολη και αποδοτική τη διαχείριση δεδομένων μεγάλου όγκου. Επίσης, ένα εξίσου σημαντικό στοιχείο είναι το γεγονός ότι η διαχείριση μνήμης αποτελεί μια συνεχή πρόκληση για τέτοιου είδους συστήματα, καθώς η αποθήκευση των δεδομένων σε μια μόνο υπολογιστική μονάδα είναι πολλές φορές αδύνατη εξαιτίας της ανεπάρκειας της μνήμης. Για την επίλυση αυτού του προβλήματος, η εφαρμογή προειδοποιεί το χρήστη στην περίπτωση που η διαθέσιμη μνήμη δεν αρκεί για τη φόρτωση ολόκληρου του συνόλου δεδομένων στη μνήμη. Στη συνέχεια, ο χρήστης έχει τη δυνατότητα είτε να εκτελέσει τη διαδικασία σε ένα υποσύνολο του αρχικού συνόλου δεδομένων (δείγμα δεδομένων), είτε να ακυρώσει τη διαδικασία μείωσης διάστασης.Σε αυτό το σημείο, πρέπει να αναφερθεί πως μετά από εκτενή έρευνα που προηγήθηκε στο διαδίκτυο, δε βρέθηκε κάποιο παρόμοιο σύστημα ανοιχτού κώδικα το οποίο να ικανοποιεί τις απαιτήσεις που περιγράψαμε παραπάνω. Ωστόσο, όπως θα δούμε στο επόμενο κεφάλαιο η έρευνα έδειξε πως υπάρχουν μεμονωμένες εφαρμογές οι οποίες εκτελούν διαφορετικές λειτουργίες σε δεδομένα τέτοιου είδους χωρίς, όμως, να ικανοποιούν την απαίτηση για ένα ολοκληρωμένο σύστημα μείωσης διαστάσεων. Αυτός είναι ο βασικός λόγος που μας οδήγησε στην απόφαση η ανάπτυξη του συστήματος να ξεκινήσει από το μηδέν. Καθώς η κύρια λειτουργία της εφαρμογής είναι η εκτέλεση αλγορίθμων μείωσης διάστασης αποφασίστηκε να της δοθεί η ονομασία «Κονσόλα Μείωσης Διαστάσεων» (Dimensionality Reduction Console - DRC). Ένα σημαντικό πλεονέκτημα του συστήματος είναι η δυνατότητα επεκτασιμότητας (scalability) των διαθέσιμων αλγόριθμων μείωσης διάστασης. Οι διαθέσιμοι αλγόριθμοι βρίσκονται σε ένα φάκελο της εφαρμογής, ο οποίος ενημερώνεται από το χρήστη προσθέτοντας ή αφαιρώντας Matlab αρχεία. Ωστόσο, η εφαρμογή παρέχει ήδη κατά την εγκατάσταση της τους βασικότερους αλγόριθμους, μερικοί από τους οποίους είναι οι εξής:*PCA *FastMap *MDS *RandomProjection *FEDRA_lp *FastMapAux *PCAaux *DPCA *DFastMap |
Λέξη κλειδί |
Εξόρυξη δεδομένων Εξόρυξη Γνώσης Απεικόνιση δεδομένων Κονσόλα Μείωσης Διαστάσεων Dimensionality Reduction Console (DRC) |
Ημερομηνία |
31-01-2009 |
Άδεια χρήσης |
https://creativecommons.org/licenses/by/4.0/ |