Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Διδακτορικές διατριβές / PhD Theses

Τίτλος :	Fast and efficient predictions in Big Data systems

Εναλλακτικός τίτλος :	Γρήγορες και αποτελεσματικές προβλέψεις σε κατανεμημένα συστήματα επεξεργασίας Μεγάλων Δεδομένων

Δημιουργός :	Μαρούλης, Ευστάθιος Maroulis, Stathis

Συντελεστής :	Kalogeraki, Vana (Επιβλέπων καθηγητής) Xylomenos, George (Εξεταστής) Gunopulos, Dimitrios (Εξεταστής) Voulgaris, Spyridon (Εξεταστής) Kotidis, Υannis (Εξεταστής) Stamoulis, Georgios (Εξεταστής) Hadjiefthymiades, Stathes (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Συντελεστής :

Kalogeraki, Vana (Επιβλέπων καθηγητής)
Xylomenos, George (Εξεταστής)
Gunopulos, Dimitrios (Εξεταστής)
Voulgaris, Spyridon (Εξεταστής)
Kotidis, Υannis (Εξεταστής)
Stamoulis, Georgios (Εξεταστής)
Hadjiefthymiades, Stathes (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	146p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10933

Περίληψη :	Την τελευταία δεκαετία, η έκρηξη στην παραγωγή δεδομένων από πηγές όπως τα social media, τα κινητά τηλέφωνα και τα δίκτυα αισθητήρων έχει ωθήσει την ανάπτυξη εφαρμογών που απαιτούν πολλά δεδομένα, συμπεριλαμβανομένων των συστημάτων συστάσεων και της πρόβλεψης κυκλοφοριακών μοτίβων. Αυτές οι εφαρμογές, που χειρίζονται δεδομένα σε κλίμακα GB ή TB, απαιτούν σημαντικούς υπολογιστικούς πόρους.Τα κατανεμημένα συστήματα επεξεργασίας μεγάλων δεδομένων όπως τα Apache Spark και Apache Flink είναι κρίσιμα στην επεξεργασία αυτών των τεράστιων όγκων δεδομένων. Ωστόσο, η βελτιστοποίηση αυτών των συστημάτων για αποτελεσματική λειτουργία των εφαρμογών και η ελαχιστοποίηση της κατανάλωσης ενέργειάς τους παρουσιάζει σημαντικές προκλήσεις. Σε αυτή την διατριβή αναπτύχθηκαν πρακτικές μεθοδολογίες για την αντιμετώπιση αυτών των προκλήσεων, εστιάζοντας στον αποδοτικό χρονοπρογραμματισμό (scheduling) εργασιών, στην ανάπτυξη μοντέλων πρόβλεψης υψηλής ακρίβειας, σε συστήματα ανίχνευσης συμβάντων και στην ενεργειακά αποδοτική χρήση πόρων.Η έρευνα αυτή περιλαμβάνει την εξέταση του τομέα του χρονοπρογραμματισμού πραγματικού χρόνου εργασιών σε κατανεμημένα συστήματα επεξεργασίας μεγάλων δεδομένων. Επικεντρώνεται επίσης στη δημιουργία ακριβών μοντέλων για την πρόβλεψη χρόνου εκτέλεσης εφαρμογών, λαμβάνοντας υπόψη τις πολυπλοκότητες όπως η ετερογένεια του περιβάλλοντος εκτέλεσης, οι παραμορφωμένες ενότητες δεδομένων και οι απαιτήσεις των εφαρμογών σε πραγματικό χρόνο, όπως ο χρόνος εκτέλεσης της εφαρμογής. Η προσέγγιση που ακολουθείται περιλαμβάνει την ανάπτυξη καινοτόμων αλγορίθμων χρονοπρογραμματισμού και ενός πρωτοποριακού συστήματος ανάλυσης (profiling). Επιπλέον, αντιμετωπίζει την πρόκληση του χρονοπρογραμματισμού εργασιών με έμφαση στην επίτευξη μετρικών απόδοσης ενώ ταυτόχρονα διαχειρίζονται συντηρητικά οι πόροι και η (ενεργειακή) κατανάλωση του συστήματος. Ένα άλλο σημαντικό επίτευγμα είναι η δημιουργία ενός συστήματος για την πρόβλεψη των μοτίβων κυκλοφορίας στην πόλη του Δουβλίνου, χρησιμοποιώντας τεχνικές Παραγοντοποίησης Πινάκων (Matrix Factorization) και εκμεταλλευόμενοι δεδομένα από αισθητήρες της πόλης. Τέλος, παρουσιάζεται ένα σύστημα που σχεδιάστηκε για την ταχεία και ακριβή παροχή συστάσεων και προβλέψεων στους χρήστες, εκμεταλλευόμενο δεδομένα από το Foursquare και χρησιμοποιώντας τεχνικές Παραγοντοποίησης Τανυστών (Tensor Factorization) για να προτείνει Σημεία Ενδιαφέροντος που προσαρμόζονται στις προτιμήσεις των χρηστών.Οι εμπειρικές αξιολογήσεις σε πραγματικά σύνολα δεδομένων αποδεικνύουν την αποτελεσματικότητα αυτών των μεθοδολογιών στη βελτίωση του χρονοπρογραμματισμού εργασιών, της πρόβλεψης της κυκλοφορίας και των συστημάτων συστάσεων, συμβάλλοντας σημαντικά στην προώθηση των δυνατοτήτων των διανεμημένων συστημάτων επεξεργασίας όπως το Apache Spark και το Apache Flink. Over the past decade, there has been an exponential surge in the volume of data produced. This data originates from diverse sources, including large-scale applications such as popular social media platforms, and information-sensing devices like mobiles, software logs, cameras, microphones, and wireless sensor networks. This influx of data has fostered the development of applications designed to aid users in daily tasks, including recommendation systems (e.g., suggesting a movie or forecasting traffic patterns). Such applications often necessitate substantial computing resources due to memory-intensive operations, especially when handling data in the GB or TB scale.Distributed big data frameworks, such as Apache Spark and Apache Flink, have become essential for processing enormous volumes of data. While they offer scalable and low-latency data processing by distributing computation across multiple components, their full potential is often hindered by complex challenges, including the critical task of determining the appropriate amount of resources needed to run applications effectively. Another significant concern is reducing the considerable energy consumption of these large clusters. Addressing these challenges is crucial for leveraging the true capacity of big data frameworks. This thesis introduces practical methodologies to tackle these challenges, focusing on efficient job scheduling, accurate prediction models, event detection systems, and energy-efficient resource utilization. This thesis introduces practical methodologies to tackle these challenges:First, we investigate the intricate problem of scheduling real-time jobs on big data frameworks that utilize the MapReduce paradigm. Alongside this, we delve into creating accurate prediction models for gauging application execution time. Addressing the complexities of execution environment heterogeneity, skewed data blocks, real-time application demands, and limited profiling runs, we propose a set of scheduling algorithms and a pioneering profiling framework. Subsequently, we address the challenge of job scheduling with the aim of fulfilling performance metrics while simultaneously conserving cluster resources and energy. Then, We present a system that harnesses traffic data from Dublin city sensors. Using an advanced Matrix Factorization technique, this system is adept at predicting city-wide traffic patterns in real-time. Lastly, we detail a system aimed at delivering recommendations and predictions to users rapidly and accurately. A significant highlight is a system that leverages data from Foursquare, employing a Tensor Factorization technique to recommend Points of Interest based on users' preferences.Empirical evaluations on real-world datasets underscore the practicality and superiority of our proposed methodologies. These findings not only demonstrate our methods' efficiency in job scheduling, traffic prediction, and recommendation systems but also highlight their potential to significantly advance the capabilities of distributed processing systems such as Apache Spark and Apache Flink.

Περίληψη :

Την τελευταία δεκαετία, η έκρηξη στην παραγωγή δεδομένων από πηγές όπως τα social media, τα κινητά τηλέφωνα και τα δίκτυα αισθητήρων έχει ωθήσει την ανάπτυξη εφαρμογών που απαιτούν πολλά δεδομένα, συμπεριλαμβανομένων των συστημάτων συστάσεων και της πρόβλεψης κυκλοφοριακών μοτίβων. Αυτές οι εφαρμογές, που χειρίζονται δεδομένα σε κλίμακα GB ή TB, απαιτούν σημαντικούς υπολογιστικούς πόρους.Τα κατανεμημένα συστήματα επεξεργασίας μεγάλων δεδομένων όπως τα Apache Spark και Apache Flink είναι κρίσιμα στην επεξεργασία αυτών των τεράστιων όγκων δεδομένων. Ωστόσο, η βελτιστοποίηση αυτών των συστημάτων για αποτελεσματική λειτουργία των εφαρμογών και η ελαχιστοποίηση της κατανάλωσης ενέργειάς τους παρουσιάζει σημαντικές προκλήσεις. Σε αυτή την διατριβή αναπτύχθηκαν πρακτικές μεθοδολογίες για την αντιμετώπιση αυτών των προκλήσεων, εστιάζοντας στον αποδοτικό χρονοπρογραμματισμό (scheduling) εργασιών, στην ανάπτυξη μοντέλων πρόβλεψης υψηλής ακρίβειας, σε συστήματα ανίχνευσης συμβάντων και στην ενεργειακά αποδοτική χρήση πόρων.Η έρευνα αυτή περιλαμβάνει την εξέταση του τομέα του χρονοπρογραμματισμού πραγματικού χρόνου εργασιών σε κατανεμημένα συστήματα επεξεργασίας μεγάλων δεδομένων. Επικεντρώνεται επίσης στη δημιουργία ακριβών μοντέλων για την πρόβλεψη χρόνου εκτέλεσης εφαρμογών, λαμβάνοντας υπόψη τις πολυπλοκότητες όπως η ετερογένεια του περιβάλλοντος εκτέλεσης, οι παραμορφωμένες ενότητες δεδομένων και οι απαιτήσεις των εφαρμογών σε πραγματικό χρόνο, όπως ο χρόνος εκτέλεσης της εφαρμογής. Η προσέγγιση που ακολουθείται περιλαμβάνει την ανάπτυξη καινοτόμων αλγορίθμων χρονοπρογραμματισμού και ενός πρωτοποριακού συστήματος ανάλυσης (profiling). Επιπλέον, αντιμετωπίζει την πρόκληση του χρονοπρογραμματισμού εργασιών με έμφαση στην επίτευξη μετρικών απόδοσης ενώ ταυτόχρονα διαχειρίζονται συντηρητικά οι πόροι και η (ενεργειακή) κατανάλωση του συστήματος. Ένα άλλο σημαντικό επίτευγμα είναι η δημιουργία ενός συστήματος για την πρόβλεψη των μοτίβων κυκλοφορίας στην πόλη του Δουβλίνου, χρησιμοποιώντας τεχνικές Παραγοντοποίησης Πινάκων (Matrix Factorization) και εκμεταλλευόμενοι δεδομένα από αισθητήρες της πόλης. Τέλος, παρουσιάζεται ένα σύστημα που σχεδιάστηκε για την ταχεία και ακριβή παροχή συστάσεων και προβλέψεων στους χρήστες, εκμεταλλευόμενο δεδομένα από το Foursquare και χρησιμοποιώντας τεχνικές Παραγοντοποίησης Τανυστών (Tensor Factorization) για να προτείνει Σημεία Ενδιαφέροντος που προσαρμόζονται στις προτιμήσεις των χρηστών.Οι εμπειρικές αξιολογήσεις σε πραγματικά σύνολα δεδομένων αποδεικνύουν την αποτελεσματικότητα αυτών των μεθοδολογιών στη βελτίωση του χρονοπρογραμματισμού εργασιών, της πρόβλεψης της κυκλοφορίας και των συστημάτων συστάσεων, συμβάλλοντας σημαντικά στην προώθηση των δυνατοτήτων των διανεμημένων συστημάτων επεξεργασίας όπως το Apache Spark και το Apache Flink.
Over the past decade, there has been an exponential surge in the volume of data produced. This data originates from diverse sources, including large-scale applications such as popular social media platforms, and information-sensing devices like mobiles, software logs, cameras, microphones, and wireless sensor networks. This influx of data has fostered the development of applications designed to aid users in daily tasks, including recommendation systems (e.g., suggesting a movie or forecasting traffic patterns). Such applications often necessitate substantial computing resources due to memory-intensive operations, especially when handling data in the GB or TB scale.Distributed big data frameworks, such as Apache Spark and Apache Flink, have become essential for processing enormous volumes of data. While they offer scalable and low-latency data processing by distributing computation across multiple components, their full potential is often hindered by complex challenges, including the critical task of determining the appropriate amount of resources needed to run applications effectively. Another significant concern is reducing the considerable energy consumption of these large clusters. Addressing these challenges is crucial for leveraging the true capacity of big data frameworks. This thesis introduces practical methodologies to tackle these challenges, focusing on efficient job scheduling, accurate prediction models, event detection systems, and energy-efficient resource utilization. This thesis introduces practical methodologies to tackle these challenges:First, we investigate the intricate problem of scheduling real-time jobs on big data frameworks that utilize the MapReduce paradigm. Alongside this, we delve into creating accurate prediction models for gauging application execution time. Addressing the complexities of execution environment heterogeneity, skewed data blocks, real-time application demands, and limited profiling runs, we propose a set of scheduling algorithms and a pioneering profiling framework. Subsequently, we address the challenge of job scheduling with the aim of fulfilling performance metrics while simultaneously conserving cluster resources and energy. Then, We present a system that harnesses traffic data from Dublin city sensors. Using an advanced Matrix Factorization technique, this system is adept at predicting city-wide traffic patterns in real-time. Lastly, we detail a system aimed at delivering recommendations and predictions to users rapidly and accurately. A significant highlight is a system that leverages data from Foursquare, employing a Tensor Factorization technique to recommend Points of Interest based on users' preferences.Empirical evaluations on real-world datasets underscore the practicality and superiority of our proposed methodologies. These findings not only demonstrate our methods' efficiency in job scheduling, traffic prediction, and recommendation systems but also highlight their potential to significantly advance the capabilities of distributed processing systems such as Apache Spark and Apache Flink.

Λέξη κλειδί :	Κατανεμημένα συστήματα Συστήματα προτάσεων Ενεργειακά αποδοτικός χρονοπρογραμματισμός Συστήματα ανίχνευσης συμβάντων Distributed systems Recommendation systems Εnergy efficient scheduling Event detection systems

Διαθέσιμο από :	2023-12-14 12:06:28

Ημερομηνία έκδοσης :	13-12-2023

Ημερομηνία κατάθεσης :	2023-12-14 12:06:28

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Maroulis_2023.pdf

Τύπος: application/pdf

Είσοδος