Abstract : | The need to handle and process large scale datasets has become apparent in the recent years. As the technology grows, more and more applications generate massive and complex information whether it is from social networks like the Facebook or banks that handle millions of customers. Companies have the need to process and convert massive amounts of data to knowledge and exploit them in order to have a greater perspective of things. Thus, processing such information with machine learning algorithms, demands bigger computing power because of the high intensive procedure. Data mining algorithms in a distributed environment offers great advantages when it comes down to datasets that are evolving in complexity and size. In this thesis, we implement the C4.5 and the DBSCAN algorithms in a distributed environment using various data transfer restrictions. For our implementation, we used the open-source Apache’s Spark framework. We also used a 36-node cluster and real datasets to evaluate the proper function of the algorithms and of our methods. Η ανάγκη του χειρισμού και της επεξεργασίας μεγάλου όγκου δεδομένων έχει γίνει εμφανής τα τελευταία χρόνια. Καθώς η τεχνολογία αναπτύσσεται, όλο και περισσότερες εφαρμογές δημιουργούν τεράστια και πολύπλοκη πληροφορία είτε αυτή είναι από τα κοινωνικά δίκτυα όπως το Facebook είτε από τράπεζες που χειρίζονται εκατομμύρια πελάτες. Οι εταιρείες έχουν την ανάγκη να επεξεργαστούν και να μετατρέψουν τεράστιες ποσότητες δεδομένων σε γνώση και να την αξιοποιήσουν προκειμένου να έχουν μια μεγαλύτερη προοπτική των πραγμάτων. Έτσι, η επεξεργασία των πληροφοριών αυτών με αλγόριθμους μηχανικής μάθησης, απαιτεί μεγαλύτερη υπολογιστική ισχύ, λόγω της εντατικής διαδικασίας των αλγορίθμων. Η εξόρυξη δεδομένων σε ένα κατανεμημένο περιβάλλον προσφέρει μεγάλα πλεονεκτήματα, όταν πρόκειται για βάσεις δεδομένων που εξελίσσονται σε πολυπλοκότητα και το μέγεθος. Σε αυτή την πτυχιακή, υλοποιήσαμε το C4.5 και το DBSCAN αλγόριθμο σε ένα κατανεμημένο περιβάλλον, χρησιμοποιώντας διάφορους περιορισμούς μεταφοράς δεδομένων. Για την εφαρμογή μας, χρησιμοποιήσαμε την open-source πλατφόρμαSpark του Apache. Χρησιμοποιήσαμε επίσης, ένα cluster 36 κόμβων και πραγματικά δεδομένα για να αξιολογήσουμε τη σωστή λειτουργία των αλγορίθμων και των μεθόδων μας.
|
---|