Statistical models for natural language processing and topic modelling in R
Φόρτωση...
Αρχεία
Ημερομηνία
17-09-2024
Συγγραφείς
Καβούρ, Ευθύμιος-Ιωάννης
Kavour, Efthimios-Ioannis
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων
Διαθέσιμο από
2024-09-18 18:57:25
Περίληψη
Σκοπός της παρούσας διπλωματικής εργασίας είναι η εις βάθος ανάλυση και εφαρμογή της μεθόδου Latent Dirichlet Allocation (LDA), η οποία επιτρέπει την κατηγοριοποίηση λεκτικών δεδομένων σε θεματικές ομάδες. Αρχικά, παρουσιάζεται μια συνοπτική εισαγωγή στη μηχανική μάθηση, ακολουθούμενη από λεπτομερή μελέτη του μοντέλου ενδιαφέροντος. Τέλος, η μέθοδος εφαρμόζεται σε μια συλλογή βιβλίων, με σκοπό την ανάλυση και κατηγοριοποίηση των περιγραφών τους.The aim of this thesis is the in-depth analysis and application of the Latent Dirichlet Allocation (LDA) method, which allows for the categorization of textual data into thematic groups. Initially, a brief introduction to machine learning is provided, followed by a detailed study of the model of interest. Finally, the method is applied to a collection of books, analyzing and grouping of their descriptions.
Περιγραφή
Λέξεις-κλειδιά
Μηχανική μάθηση, Εξαγωγή δεδομένων από το διαδίκτυο, Επεξεργασία φυσικής γλώσσας, Machine learning (ML), Web scrapping, Latent Dirichlet Allocation (LDA), Natural Language Processing (NLP), Latent semantic analysis