Abstract : | Η παρούσα εργασία ερευνά τον τομέα της θεματικής μοντελοποίησης μιας συλλογής κειμένων. Αναφέρεται ο τρόπος λειτουργίας και χρήσης εργαλείων που υλοποιούν αλγόριθμους θεματικής μοντελοποίησης και γίνεται μια προσπάθεια συσχέτισης των αποτελεσμάτων τους με την οντολογία DiLEO.Τα τελευταία χρόνια με την εξέλιξη του παγκόσμιου ιστού, ο όγκος των διαθέσιμων δεδομένων έχει αυξηθεί σε μεγάλο βαθμό. Κάθε μέρα ερχόμαστε αντιμέτωποι με έναν κατακλυσμό πληροφοριών και δεδομένων όπως επιστημονικά, ιατρικά, δημογραφικά και οικονομικά δεδομένα. Η εξέλιξη της τεχνολογίας και της γνώσης προχωράει με τέτοιους ρυθμούς όπως ποτέ άλλοτε στο παρελθόν. Ο άνθρωπος δεν διαθέτει τόσο χρόνο ώστε να επεξεργαστεί όλο αυτόν τον όγκο. Η προσοχή που μπορεί να δείξει ο άνθρωπος σήμερα έχει μετατραπεί σε πολύτιμο αγαθό. Πρέπει λοιπόν να βρούμε τρόπους να αυτοματοποιήσουμε την ανάλυση, την κατηγοριοποίηση και την περίληψη των δεδομένων καθώς επίσης και την αυτόματη εξεύρεση ανωμαλιών σε αυτά. This dissertation deals with the field of Topic Modeling a collection of documents. This collection is also called corpus. We describe the way topic modeling tools are used and operated and also try to correlate the findings with the DiLEO ontology. The growth of the World Wide Web over the last years has produced a vast amount of data. Every day we are deluged by data in the form of scientific data, demographic data and financial data. Knowledge is being transferred so fast like never before in the past. People have no time to look at this data. Human attention has become a precious resource. So, we must find ways to automatically analyze the data, to automatically classify it and to automatically summarize it as well as to automatically flag anomalies.
|
---|