Πλοήγηση ανά Επιβλέπων "Papageorgiou, Ioulia"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 11 από 11
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Customer segmentation in marketing using classification algorithms and clustering based on RFM analysis(07/01/2022) Bartsokas, Nteivint-Pantelis; Μπαρτσώκας, Ντέιβιντ-Παντελής; Athens University of Economics and Business, Department of Statistics; Kostaki, Anastasia; Psarakis, Stelios; Papageorgiou, IouliaThe main target of this master thesis is direct marketing through machine learning algorithms. The first part of the master thesis is classification on marketing campaigns based on whether are successful or not. The second part is clustering based on the RFM analysis in order to identify how many groups or clusters we have into our database.Τεκμήριο Distance-based methods for clustering mixed type data: a review and comparison study with Gower’s coefficient(24-10-2022) Hobbs-Ismeris, Alexia-Elizabeth; Athens University of Economics and Business, Department of Statistics; Karlis, Dimitrios; Pedeli, Xanthi; Papageorgiou, IouliaΗ συσταδοποίηση αποτελεί μια δημοφιλής προσέγγιση σε εφαρμογές εξόρυξης δεδομένων από μεγάλους όγκους δεδομένων για την ανακάλυψη, διαχείριση, ανάλυση και εξαγωγή χρήσιμων πληροφοριών. Οι αλγόριθμοι συσταδοποίησης προσπαθούν να ανακαλύψουν ομοιογενείς ομάδες αντικειμένων με βάση τις τιμές των μεταβλητών. Η πλειοψηφία των αλγορίθμων συσταδοποίησης είναι κατάλληλοι είτε για αριθμητικά είτε για κατηγορικά δεδομένα, αλλά όχι για το συνδυασμό και των δύο. Τα δεδομένα που συναντώνται συνήθως στην καθημερινότητα, αποτελούνται ωστόσο απο μεικτούς τύπους δεδομένων. Μία απο τις κύριες προσεγγίσεις για τη συσταδοποίηση μεικτών δεδομένων βασίζεται στη χρήση μέτρων ομοιότητας. Επομένως, η δημιουργία κατάλληλων μέτρων ομοιότητας είναι ένα κρίσιμο βήμα για τη συσταδοποίηση αυτών των συνόλων δεδομένων. Η παρούσα διπλωματική εργασία εστιάζει σε μέτρα ομοιότητας για μεικτά δεδομένα που μπορούν να χρησιμοποιηθούν στην ιεραρχική μέθοδο συσταδοποίησης, με κύριο αντικείμενο μελέτης το μέτρο ομοιότητας του Gower. Συγκεκριμένα, εξετάζονται κάποιες τροποποιήσεις του συντελεστή Gower καθώς και πρόσθετα μέτρα ομοιότητας. Επιπρόσθετα, διεξάγεται μια μελέτη προσομοίωσης για την αξιολόγηση της απόδοσης των διαφορετικών μέτρων σε μεικτά δεδομένα, υπό διαφορετικές συνθήκες. Όλα τα εξεταζόμενα μέτρα ομοιότητας συγκρίνονται ως προς την ποιότητα των παραγόμενων συστάδων με τη χρήση του δείκτη Rand, και συνεπώς εξάγονται συμπεράσματα για την αποτελεσματικότητα των μέτρων ύπο διαφορετικές συνθήκες.Τεκμήριο Genome-wide insights: biclustering approaches for mining gene expression data(24-09-2024) Παπαδάκη, Βασιλική; Papadaki, Vasiliki; Athens University of Economics and Business, Department of Statistics; Papastamoulis, Panagiotis; Pedeli, Xanthi; Papageorgiou, IouliaΗ δι-ομαδοποίηση (Biclustering) έχει αναδειχθεί ως μια ισχυρή επέκταση της παραδοσιακής ομαδοποίησης (Clustering), επιτρέποντας την ταυτόχρονη ομαδοποίηση γραμμών και στηλών σε πίνακες δεδομένων, αποκαλύπτοντας κρυμμένα μοτίβα και παρέχοντας πολύτιμες πληροφορίες. Αυτή η διατριβή εξερευνά την εξέλιξη και την εφαρμογή των τεχνικών δι-ομαδοποίησης που αναπτύχθηκαν την τελευταία δεκαετία, με έμφαση στις θεωρητικές βάσεις και τις πρακτικές τους εφαρμογές. Εξετάζουμε διάφορους αλγορίθμους δι-ομαδοποίησης, συμπεριλαμβανομένων των αλγορίθμων Cheng και Church (CCA), Iterative Signature Algorithm (ISA), Plaid Model, xMOTIFs και Bimax, για την αξιολόγηση της απόδοσης και της υπολογιστικής τους αποδοτικότητας. Η μελέτη χρησιμοποιεί τον Δείκτη Jaccard για τη σύγκριση της ομοιότητας των αποτελεσμάτων της δι-ομαδοποίησης, υπογραμμίζοντας τη σημασία της προσεκτικής επιλογής αλγορίθμων. Πρακτικά παραδείγματα χρησιμοποιώντας R (R commander) δείχνουν την εφαρμογή αυτών των αλγορίθμων, ενώ βασικές τεχνικές απεικόνισης όπως θερμοχάρτες και διμερή ή τρισδιάστατα γραφήματα κατανομής στο χώρο εικονογραφούν τα αποτελέσματα. Τα ευρήματα υπογραμμίζουν τη σημασία της επιλογής κατάλληλων αλγορίθμων βάσει των χαρακτηριστικών του συνόλου δεδομένων και προτείνουν τη δυνατότητα μελλοντικών βελτιώσεων μέσω υβριδικών προσεγγίσεων. Αυτή η έρευνα συμβάλλει στην βαθύτερη κατανόηση των τεχνικών δι-ομαδοποίησης και των εφαρμογών τους, ανοίγοντας το δρόμο για περαιτέρω καινοτομίες στη βιοπληροφορική και σε άλλους τομείς.Τεκμήριο Imputation methods based on principal component analysis(30-09-2016) Siskas, Christos; Athens University of Economics and Business, Department of Statistics; Papageorgiou, IouliaPrincipal Component Analysis is the oldest and most famous technique of Multivariate Analysis and can be used as a tool for researchers to deal with missingness in datasets. The aim of this thesis is the description, the analysis and the comparison of the techniques that belong in the category of Principal Component Analysis. All these available techniques are presented with respect to their theoretical framework and then a comparison of these methods in different percentages of missingness and for different types of datasets (simulated and real) follows in order to see which method responds better depending on the case and which is totally the most reliable.Τεκμήριο Invariant coordinate selection for detecting multivariate outliers(24-09-2019) Βουτσινάς, Στέφανος; Voutsinas, Stefanos; Athens University of Economics and Business, Department of Statistics; Yannacopoulos, Athanasios; Psarakis, Stelios; Papageorgiou, IouliaA general method for exploring multivariate data by comparing different estimates of multivariate scatter and location functionals is presented. The method is based on the eigenvalueeigenvector decomposition of one scatter matrix relative to another. A standardization of the data is firstly conducted by using a scatter statistic and then a principal component method with a second scatter statistic. In particular, it is shown that the eigenvectors can be used to generate an affine invariant coordinate system for the multivariate data. An illustration of the importance of the robust statistics and their properties is also essential to understand how the method works as well as detailed examples and case studies on the method.Τεκμήριο Machine learning methods in music(30-09-2024) Χριστοδουλοπούλου, Μαρία; Christodoulopoulou, Maria; Athens University of Economics and Business, Department of Statistics; Psarakis, Stelios; Vrontos, Ioannis; Papageorgiou, IouliaΜηχανική εκμάθηση για ταξινόμηση διάθεσης τραγουδιού με βάση τα χαρακτηριστικά ήχουΗ μουσική, που συχνά θεωρείται ως η παγκόσμια γλώσσα, έχει μεγάλη δύναμη να προκαλεί ένα φάσμα συναισθημάτων στους ακροατές της. Αυτή η ποιότητα έχει κάνει την ταξινόμηση της διάθεσης στα τραγούδια έναν συναρπαστικό τομέα έρευνας, με σημαντικές εφαρμογές σε συστήματα προτάσεων μουσικής, θεραπευτικά πλαίσια και εξατομικευμένες εμπειρίες χρήστη. Η μεταπτυχιακή μου διατριβή, εμβαθύνει στη χρήση τεχνικών μηχανικής μάθησης για την κατηγοριοποίηση των τραγουδιών με βάση τον συναισθηματικό τους τόνο, εξετάζοντας διάφορα χαρακτηριστικά ήχου. Αυτή η μελέτη επιχειρεί να προάγει τον τομέα της Ανάκτησης Μουσικών Πληροφοριών (MIR) αλλά επίσης βελτιώνει τον τρόπο με τον οποίο αλληλεπιδρούμε με τη μουσική σε ψηφιακά περιβάλλοντα.Το πεδίο του MIR περιλαμβάνει μια ποικιλία μεθόδων και τεχνολογιών που έχουν σχεδιαστεί για τον εντοπισμό, την ανάλυση και την οργάνωση δεδομένων μουσικής, επιτρέποντας στους χρήστες να εντοπίζουν μουσικό περιεχόμενο μέσω διαφορετικών μορφών ερωτημάτων, όπως αποσπάσματα ήχου, εισαγωγή κειμένου ή μεταδεδομένα. Προηγούμενη έρευνα έχει διερευνήσει διάφορες πτυχές του MIR, όπως η πρόβλεψη επιτυχίας τραγουδιών, η ταξινόμηση του είδους, η ανάλυση κοινού, η σύνθεση μουσικής και η ενσωμάτωση της βαθιάς μάθησης σε συστήματα προτάσεων μουσικής. Αυτές οι μελέτες έθεσαν τα θεμέλια για την κατανόηση της πολύπλευρης φύσης της μουσικής και της ανάκτησής της.Ειδικότερα, η ταξινόμηση της διάθεσης έχει αναδειχθεί ως βασική πτυχή του MIR. Αυτή η έρευνα στοχεύει να αναπτύξει ισχυρά μοντέλα ικανά να προσδιορίζουν με ακρίβεια τη διάθεση που μεταδίδεται από ένα τραγούδι μέσω της ανάλυσης χαρακτηριστικών όπως το τέμπο, το κλειδί, οι φασματικές ιδιότητες και άλλα. Αξιοποιώντας προηγμένους αλγόριθμους μηχανικής μάθησης, αυτή η μελέτη επιδιώκει να βασιστεί σε υπάρχουσες μεθοδολογίες και να αντιμετωπίσει τις προκλήσεις που ενυπάρχουν στην ταξινόμηση της διάθεσης. Αυτή η προσπάθεια προσφέρει πρακτικά οφέλη, ενισχύοντας την εμπειρία του χρήστη σε πλατφόρμες ροής μουσικής, επιτρέποντας πιο ακριβείς και συναισθηματικά σχετικές προτάσεις μουσικής.Διερευνώντας την περίπλοκη σχέση μεταξύ των χαρακτηριστικών ήχου και της συναισθηματικής αντίληψης, αυτή η διατριβή στοχεύει να διερευνήσει ορισμένα εργαλεία για την αποτελεσματική ταξινόμηση των μουσικών διαθέσεων, εμπλουτίζοντας έτσι τους τρόπους με τους οποίους ασχολούμαστε και εκτιμούμε τη μουσική.Τεκμήριο Methods for detection of multivariate outliers(20-10-2023) Χατζηγραμματάς, Κωνσταντινος; Chatzigrammatas, Konstantinos; Athens University of Economics and Business, Department of Statistics; Psarakis, Stelios; Vakeroudis, Stavros; Papageorgiou, IouliaΜια βασική ενέργεια για την επίτευξη μιας τεκμηριωμένης ανάλυσης είναι ο εντοπισμός των ακραίων τιμών. Παρόλο που οι ακραίες τιμές συχνά γίνονται αντιληπτές ως λανθασμένος υπολογισμός ή περιττά δεδομένα, μπορούν να αποφέρουν σημαντικές πληροφορίες. Για το λόγο αυτό, είναι σημαντικό να εντοπιστούν και να αναλυθούν, διότι μπορούν να διαδραματίσουν καθοριστικό ρόλο στη δημιουργία μοντέλων δεδομένων και στην εξαγωγή συμπερασμάτων. Στην παρούσα διατριβή θα παρουσιάσουμε μια επιλεκτική ανασκόπηση ορισμένων βασικών μεθόδων κυρίως σε πολυμεταβλητά δεδομένα που σχετίζονται με την ανίχνευση ακραίων τιμών. Στο δεύτερο κεφάλαιο, η παρούσα διατριβή παρέχει μια συζήτηση των πλεονεκτημάτων και μειονεκτημάτων κάθε μεθόδου και ένα παράδειγμα προσομοίωσης. Αρχικά, παρουσιάζεται η μέθοδος Mahalanobis Distance που μετρά την απόσταση ενός σημείου δεδομένων από μια κατανομή. Δεύτερον, αναφέρεται η μέθοδος που ονομάζεται K-Nearest Neighbor, η οποία θεωρείται μια μέθοδος που βασίζεται στην απόσταση και ανιχνεύει τις ακραίες τιμές συγκρίνοντας την απόσταση ενός σημείου δεδομένων από τους k nearest neighbors . Η τρίτη μέθοδος είναι η μέθοδος Local Outlier Factor (LOF). Ο LOF μετρά την τοπική απόκλιση της πυκνότητας ενός σημείου δεδομένων σε σχέση με τα γειτονικά του σημεία. Στη συνέχεια, η τέταρτη μέθοδος είναι το Random Forest που χρησιμοποιείται ως μέθοδος ανίχνευσης ακραίων τιμών. Το Random Forest μπορεί να χρησιμοποιηθεί για την ανίχνευση ακραίων τιμών παρατηρώντας το μέσο μήκος διαδρομής ενός σημείου δεδομένων μεταξύ πολλαπλών δέντρων απόφασης. Η πέμπτη μέθοδος που παρουσιάζεται στην παρούσα διατριβή ονομάζεται Isolation Forest και είναι μια μέθοδος συνόλου που δημιουργεί ένα τυχαίο δάσος από δέντρα απόφασης που απομονώνουν μεμονωμένα σημεία δεδομένων. Τελευταία μέθοδος σε αυτή την διπλωματική, είναι η One-class Support Vector Machine (SVM). Ο SVM είναι ένας ισχυρός αλγόριθμος μηχανικής μάθησης που χρησιμοποιείται για εργασίες ανίχνευσης ακραίων τιμών και ο κύριος στόχος του είναι η εύρεση του βέλτιστου υπερεπιπέδου. Τα σημεία δεδομένων εκτός αυτού του υπερεπιπέδου θεωρούνται πιθανές ακραίες τιμές.Στο τρίτο κεφάλαιο αναλύουμε τρία διαφορετικά σύνολα δεδομένων που το καθένα έχει διαφορετικά χαρακτηριστικά. Συγκεκριμένα, το πρώτο είναι ένα μικρό σύνολο δεδομένων με λίγες αλλά διαφορετικού τύπου μεταβλητές , το δεύτερο έχει πολλές παρατηρήσεις και περισσότερες μεταβλητές και το τρίτο είναι ένα μεγάλο πραγματικό σύνολο δεδομένων για απάτες σε πιστωτικές κάρτες. Έτσι, εφαρμόζοντας και τις έξι μεθόδους σε κάθε σύνολο δεδομένων, παρατηρούμε τις δυσκολίες και τις επιδόσεις κάθε μεθόδου ανάλογα με τα χαρακτηριστικά των αντίστοιχων δεδομένων.Ειδικότερα, τα ευρήματα της παρούσας διατριβής για κάθε μέθοδο συνοψίζονται παρακάτω. Κάθε μέθοδος παρουσιάζει τα δικά της μοναδικά πλεονεκτήματα και περιορισμούς όταν εφαρμόζεται σε διαφορετικά σύνολα δεδομένων. Η μέθοδος Mahalanobis, ευαίσθητη στην κατανομή των δεδομένων, παρουσίασε μειωμένη αποτελεσματικότητα σε σύνολα δεδομένων με διαφορετικές κατανομές. Η KNN υπερείχε, ιδίως όταν ο αριθμός των γειτόνων και οι μετρικές απόστασης προσαρμόζονταν στο σύνολο δεδομένων. Η LOF παρείχε πολύτιμες πληροφορίες, αλλά δυσκολεύτηκε σε ανομοιογενεί σύνολα δεδομένων. Το Random Forest επέδειξε ανθεκτικότητα, ιδιαίτερα κατάλληλη για μεγάλα σύνολα δεδομένων. Το Isolation Forest αναδείχθηκε ως ευέλικτο εργαλείο σε διάφορους τύπους συνόλων δεδομένων. Το SVM προσέφερε υψηλή ακρίβεια όταν στα αρχικά δεδομένα εκμάθησης υπάρχει μικρός αριθμός ακραίων τιμών .Τεκμήριο Model based cluster analysis: applications in ArchaeometryZarokosta, Foteini; Athens University of Economics and Business, Department of Statistics; Papageorgiou, IouliaThe need for obtaining groups of objects that have natural and useful properties arises in many practical applications. The very fact that usually no grouping being known a priori exists, implies that cluster analysis is a fundamental and powerful tool for organizing and investigating possible relations within multivariate data. Using the information embedded in some variables, cluster analysis intends to partition the whole set of observations into individual sets of similar characteristics.Although several algorithmic processes have been proposed for clustering, the model based method gains ground ever more. On the one hand, it is the opportunity it offers for evaluating the findings and for statistical inference; on the other hand, it is the increasing interest for investigating distributions that better fit real data, as well as the development of computer systems that have set the above method popular not only within Statistics, but also between fields of other sciences, such as the Archaeometry.Τεκμήριο Model based cluster analysis: applications in archaeometry(26-12-2014) Zarokosta, Foteini; Athens University of Economics and Business, Department of Statistics; Papageorgiou, IouliaThe need for obtaining groups of objects that have natural and useful properties arises in many practical applications. The very fact that usually no grouping being known a priori exists, implies that cluster analysis is a fundamental and powerful tool for organizing and investigating possible relations within multivariate data. Using the information embedded in some variables, cluster analysis intends to partition the whole set of observations into individual sets of similar characteristics. Although several algorithmic processes have been proposed for clustering, the model based method gains ground ever more. On the one hand, it is the opportunity it offers for evaluating the findings and for statistical inference; on the other hand, it is the increasing interest for investigating distributions that better fit real data, as well as the development of computer systems that have set the above method popular not only within Statistics, but also between fields of other sciences, such as the Archaeometry.Τεκμήριο Multivariate analysis to detect outliers using robust estimators(06/20/2019) Zafeiri, Konstantina G.; Ζαφείρη, Κωνσταντίνα; Athens University of Economics and Business, Department of Statistics; Papageorgiou, IouliaA common problem that can occur to someone who is modelling statistical data is outliers. To be more specific, most data may follow a normal distribution, but a part of our observations are far from the rest of the observations. Outliers, or extreme values, can lead us to wrong conclusions because of the large variance they develop.Robust estimators can lead us to more reliable analyses, as they try to solve the problem of outliers. In particular, they are adjusted to the set of observations whether our data contains outliers or not.This paper will be concerned with three of the most well-known robust estimators, namely:• Fast Algorithm for the Minimum Covariance Determinant Estimator• Orthogonalised Gnanadesikan Kettering procedure• Stahel- Donoho EstimatorIn this paper, the characteristics of the above estimators will be presented, as well as their effectiveness not only in relation to a classic PCA analysis, but also between themselves.Finally, the aforementioned estimators were applied to different data sets using the R so that we can see their effect on the extreme values.Τεκμήριο Variable selection in model-based clustering(08/30/2018) Paragioudaki, Katerina M.; Παραγιουδάκη, Κατερίνα Μ.; Athens University of Economics and Business, Department of Statistics; Kostaki, Anastasia; Kyriakidis, Epaminondas; Papageorgiou, IouliaAs the technology is developed, the data that we are able to handle are more complicated. In many scientific fields, the data sets have much more variables than observations (high dimensional data sets). In model-based clustering, the problem with the high dimensional data sets is that the number of parameters that need to be estimated is much more than the observations. This number is further increased when the number of clusters increases. For reducing the parameters that need to be estimated, the assumptions for covariance components are more general.For overcoming the high dimensional problem, many approaches have been proposed. Some approaches that have been proposed are the using of principal components analysis to reduce the dimensions and the variable selection for keeping in the clustering only the variables that contribute to the clustering. In this thesis we will focus in the approach of variable selection developing four methods that select automatic the variables that contribute to clustering in model-based clustering especially for “high dimension, low sample size” data,where the data dimension greatly exceeds the number of observations.