Abstract : | Research, as an activity of academia, has been growing over the past decades and that results to an increased number of scientific publications hosted in the numerous Journals that are available to publish today. The competition between researchers, universities and institutes is fierce. That raises concerns whether the published literature should be viewed as a product. To keep up with the ever-growing literature collection new age data science comes in to assist. Text Mining is one of the available technologies that could aid in the analysis of millions of texts, in their categorization and even assist the already existing heuristic algorithms to increase visibility of articles that otherwise would be left in the dark. Without having to manually read any document in the corpus of the present study, it was possible to extract information on the most common topics by defining the keywords in the collection. Term Frequency (TF) and the product of TF and Inverse Document Frequency (IDF) were used as ways to identify the keywords. In addition, other data were collected for the corpus such as the publication year, the number of authors, the issue number of the Journal, the length of the article in pages, the number of cited refences and the term count. All these variables functioned as predictors of lifetime and yearly average citations of the collection. There were two types of analysis preformed, besides some descriptive statistics of the collection. The first type was two linear regressions with the dependent variables being the lifetime and yearly average citations. The aim of the analysis was to determine which of the collected variables could predict the efficiency of an article in terms of citations, in essence what makes them publicly appealing. Η έρευνα, ως δραστηριότητα του ακαδημαϊκού χώρου, έχει αυξηθεί τις τελευταίες δεκαετίες και αυτό οδηγεί σε υψηλό αριθμό επιστημονικών δημοσιεύσεων που φιλοξενούνται στα πολυάριθμα περιοδικά που είναι διαθέσιμα για δημοσίευση σήμερα. Ο ανταγωνισμός μεταξύ ερευνητών, πανεπιστημίων και ινστιτούτων είναι έντονος. Αυτό εγείρει ανησυχίες σχετικά με το κατά πόσον η δημοσιευμένη βιβλιογραφία πρέπει να θεωρηθεί προϊόν. Για να συμβαδίσουμε με τις συνεχώς αυξανόμενες δημοσιεύσεις, η επιστήμη δεδομένων νέας εποχής έρχεται να βοηθήσει. Η εξόρυξη κειμένου είναι μία από τις διαθέσιμες τεχνολογίες που θα μπορούσαν να βοηθήσουν στην ανάλυση εκατομμυρίων κειμένων, στην κατηγοριοποίησή τους και ακόμη και να βοηθήσουν τους ήδη υπάρχοντες ευρετικούς αλγορίθμους και να αυξήσουν την προβολή άρθρων που διαφορετικά θα έμεναν στο σκοτάδι. Χωρίς να χρειάζεται να διαβάσει κανείς οποιοδήποτε έγγραφο παρούσας μελέτης, ήταν δυνατό να εξαχθούν πληροφορίες σχετικά με τα πιο συνηθισμένα θέματα καθορίζοντας τις λέξεις-κλειδιά στη συλλογή. Η συχνότητα όρου (TF) και το προϊόν της συχνότητας TF και αντίστροφης συχνότητας εγγράφου (IDF) χρησιμοποιήθηκαν ως τρόποι αναγνώρισης των λέξεων-κλειδιών. Επιπλέον, συλλέχθηκαν και άλλα δεδομένα για το σύνολο των άρθρων, όπως το έτος δημοσίευσης, ο αριθμός των συντακτών, ο αριθμός έκδοσης του περιοδικού, η έκταση του άρθρου σε σελίδες, ο αριθμός των αναφερόμενων παραθέσεων και ο αριθμός των όρων. Όλες αυτές οι μεταβλητές λειτούργησαν ως προγνωστικοί παράγοντες των συνολικών αναφορών και των μέσων ετήσιων αναφορών της συλλογής. Υπήρχαν δύο τύποι ανάλυσης καθώς και περιγραφική στατιστική ανάλυση της συλλογής. Ο πρώτος τύπος ήταν δύο γραμμικές παλινδρομήσεις με τις εξαρτώμενες μεταβλητές να είναι ο συνολικός αριθμός αναφορών και οι μέσες ετήσιες αναφορες της. Στόχος της ανάλυσης ήταν να καθοριστεί ποια από τις συλλεγόμενες μεταβλητές θα μπορούσε να προβλέψει την αποτελεσματικότητα ενός άρθρου όσον αφορά τις αναφορές, ουσιαστικά αυτό που τις καθιστά ελκυστικές στην ακαδημαϊκή κοινότητα και στην κοινωνία.
|
---|