Συλλογές
Τίτλος Ανάπτυξη συστήματος εμπλουτισμού αρχείου καθιερωμένων εγγραφών με κοινωνικές επισημειώσεις
Συντελεστής Κακαβούλης, Διονύσιος
Παπαθεοδώρου, Χρήστος
Κωτίδης, Ιωάννης
Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής
Τύπος Text
Φυσική περιγραφή 89σ.
Γλώσσα el
Περίληψη Ο Παγκόσμιος Ιστός είναι μια “καταπληκτική ιδέα” της δεκαετίας του 90, η οποία επηρέασε και επηρεάζει τις ζωές δισεκατομμυρίων ανθρώπων, δίνοντάς την δυνατότητα σε χρήστες σε όλο τον κόσμο, να αποκτούν πρόσβαση σε ένα τεράστιο όγκο πληροφορίας. Θα μπορούσε να πει κανείς, ότι η έννοια του Παγκόσμιου Ιστού συνοψίζεται ακριβώς στους τίτλους των τριών ενοτήτων του Συμποσίου για τον εορτασμό της 10ης επετείου του W3C (World Wide Web Consortium – Κοινοπραξία για τον Παγκόσμιο Ιστό), δηλαδή είναι ένα Διαδίκτυο Εννοιών (Web of Meaning), ένα Διαδίκτυο επί παντός επιστητού (Web on Everything) και ένα Διαδίκτυο για Όλους (Web for Everyone). Μια άλλη οπτική του Παγκόσμιου Ιστού έδωσε ο γενικός διευθυντής της Google, Eric Schmidt, ο οποίος τον χαρακτήρισε ως “το πρώτο πράγμα που η ανθρωπότητα δημιούργησε και το οποίο η ίδια ανθρωπότητα δε κατανοεί, το μεγαλύτερο πείραμα στην αναρχία που είχαμε ποτέ”. Αν ο Παγκόσμιος Ιστός είναι μια εφεύρεση εξαιρετικής σημασίας, η εξέλιξή του στον Ιστός 2.0 (Web 2.0), δηλαδή σε όλο εκείνο το σύνολο των τεχνολογιών και των εφαρμογών, οι οποίες επιτρέπουν την διαδραστική ανταλλαγή πληροφοριών μεταξύ χρηστών και εν γένει, την συμμετοχή τους στην δημιουργία τους, είναι εξίσου σημαντική. Μάλιστα ο Tim O'Reilly, ο οποίος εισήγαγε τον όρο Ιστός 2.0, το χαρακτήρισε ως “επιχειρηματική επανάσταση στη βιομηχανία των υπολογιστών”. Η σημαντικότητα έγκειται, στο ότι οι χρήστες έχουν ενδυναμωθεί, καθώς όχι μόνο τους παρέχεται περισσότερη πληροφορία και με πιο εύκολο τρόπο αλλά και τα εργαλεία ώστε να συμμετέχουν ενεργά σε διάφορες παραγωγικές διαδικασίες, όπως ο σχεδιασμός, η ανάπτυξη και η διανομή υπηρεσιών, που αργότερα θα χρησιμοποιήσουν. Δυστυχώς, οι πρακτικές του Ιστού 2.0 δεν έχουν υιοθετηθεί ευρέως από την πλειοψηφία των διαδικτυακών εφαρμογών, εξαιτίας του γεγονότος ότι ο Ιστός 2.0 εισάγει μια τελείως διαφορετική νοοτροπία, όσον αφορά τη διαχείριση και διακίνηση της γνώσης. Το παλιό περιορισμένο, ιεραρχικό και απολύτως ελεγχόμενο μοντέλο αντικαθίσταται από ένα νέο, ευρύ και οριζόντιο μοντέλο ελευθεριών, όπου κάθε μεμονωμένος χρήστης έχει δικαιώματα κι έλεγχο επί των δεδομένων, γεγονός που όπως είναι αναμενόμενο προκαλεί δυσπιστία. Παρόλα αυτά, επειδή όπως αναφέρθηκε, η σημαντικότητα του Ιστού 2.0 είναι μεγάλη, κατάφερε και εισχώρησε σε αρκετές εφαρμογές.Ανάμεσα σε αυτές τις εφαρμογές είναι και οι κατάλογοι των βιβλιοθηκών. Κάποιες από τις πρακτικές, τις οποίες υιοθέτησαν έχουν να κάνουν με την παροχή υνατοτήτων στους χρήστες, να κάνουν αναζητήσεις για την ανάκτηση τεκμηρίων, σε διάφορα πεδία όπως “Τίτλος”, “Συγγραφέας” κτλ, να αναθέτουν λέξεις-κλειδιά στα τεκμήρια τους, οι οποίες ονομάζονται κοινωνικές επισημειώσεις, με σκοπό την καλύτερη οργάνωση και ανάκτησή αυτών των τεκμηρίων, να συνομιλούν με σύγχρονα μηνύματα με τους βιβλιοθηκονόμους, να ενημερώνονται για καινούργια τεκμήρια στην βιβλιοθήκη μέσω RSS ροών (RSS feeds - Really Simple Syndication) κ.α. Εξαιτίας όμως, του μεγάλου όγκου πληροφοριών, που διατηρούν οι ψηφιακές βιβλιοθήκες, η δυσκολία ανάκτησης σχετικών αποτελεσμάτων, κατά τη διενέργεια αναζητήσεων από τους χρήστες, παραμένει αρκετά μεγάλη. Για αυτό το λόγο, στην παρούσα διπλωματική προτείνεται μια μεθοδολογία, σύμφωνα με την οποία οι βιβλιοθήκες καλούνται να εκμεταλλευτούν ακόμα περισσότερο τον Ιστό 2.0 και πιο συγκεκριμένα τις κοινωνικές επισημειώσεις, με στόχο την βελτίωση αυτών των αποτελεσμάτων. Πιο συγκεκριμένα, αυτό που προτείνεται, είναι η χρήση των κοινωνικών επισημειώσεων για τον εμπλουτισμό των θεματικών επικεφαλίδων των τεκμηρίων, στις οποίες έχουν ανατεθεί. Με αυτό το τρόπο, οι κοινωνικές επισημειώσεις λαμβάνονται υπ’ όψιν, χωρίς απαραίτητα οι αναζητήσεις των χρηστών να είναι στο πεδίο των “Κοινωνικών Επισημειώσεων”. Η όλη μεθοδολογία εμπλουτισμού, που θα περιγραφεί, ξεκινάει με την εκτίμηση της υπάρχουσας κατάστασης της βιβλιοθήκης, μέσω του βαθμού επικάλυψης κάποιων βασικών αρχείων της, ώστε να φανερωθούν οι πιθανές αδυναμίες της. Για το λόγο αυτό, ορίζονται εφτά δείκτες επικάλυψης, ο καθένας με την δικιά του σημασιολογία, που αξιολογούν την βιβλιοθήκη από διαφορετική σκοπιά. Έπειτα, επιλέγονται ποιες από όλες τις επισημειώσεις των χρηστών, θα χρησιμοποιηθούν για τον εμπλουτισμό. Οι επιλεγμένες επισημειώσεις θα πρέπει να ικανοποιούν δύο κριτήρια. Δεν προτείνεται η χρήση όλων των επισημειώσεων επειδή, θα γέμιζε την βιβλιοθήκη με πληθώρα επιπλέον πληροφορίας, χωρίς ανάλογη χρησιμότητα. Το πρώτο κριτήριο έχει να κάνει με την ομοιότητα της επισημείωσης με την υπάρχουσα πληροφορία του τεκμηρίου (θέμα, τίτλος κτλ), που καλείται να εμπλουτίσει. Η ομοιότητα αυτή, πρέπει να είναι από μικρή έως μηδαμινή. Το κριτήριο αυτό είναι αναγκαίο, καθώς αν μια επισημείωση είναι παρόμοια, με κάτι που ήδη υπάρχει στο τεκμήριο, το κέρδος από αυτόν τον εμπλουτισμό, θα κυμαίνεται σε πολύ μικρά πλαίσια (το πόσο μικρά εξαρτάται από τον βαθμό ομοιότητας). Το δεύτερο κριτήριο αφορά την αξία της επισημείωσης για το συγκεκριμένο τεκμήριο. Η αξία αυτή, θα πρέπει να είναι όσο το δυνατόν μεγαλύτερη. Το πώς μετριέται η αξία μιας επισημείωσης για ένα τεκμήριο, θα οριστεί στην παρούσα διπλωματική, λαμβάνοντας υπ’ όψιν δύο παράγοντες. Πρώτον, την δημοτικότητα μιας επισημείωσης σ’ ένα τεκμήριο, δηλαδή το από πόσους χρήστες έχει ανατεθεί η επισημείωση στο συγκεκριμένο τεκμήριο. Δεύτερον, το σε πόσες σελίδες του τεκμηρίου εμφανίζεται η επισημείωση. To πρώτο θα μετρηθεί στο περιβάλλον του συστήματος Library Thing, ενώ το δεύτερο θα βρεθεί, με την βοήθεία ενός συστήματος αυτόματης ευρετηρίασης, με όνομα Google Books.Επιπροσθέτως, στα πλαίσια της διπλωματικής, ορίζονται τρεις μετρικές, με σκοπό πρώτον, την αξιολόγηση του σε τι κλίμακα επιτυγχάνεται η βελτίωση της ανάκτησης, κατά την αναζήτηση, με την υιοθέτηση της παραπάνω μεθοδολογίας και δεύτερον, τον καθορισμό του σε τι ποσοστό, πρέπει να λαμβάνονται υπ’ όψιν οι δύο παράγοντες, που αναφέρθηκαν παραπάνω. Τέλος, η προτεινόμενη μεθοδολογία εφαρμόστηκε πειραματικά σε δεδομένα από την ψηφιακή βιβλιοθήκη του Παντείου Πανεπιστημίου, ώστε να προκύψουν πιο ασφαλή συμπεράσματα για την αξία της, μέσω της αξιολόγησης των αποτελεσμάτων αυτής της εφαρμογής, από τις προαναφερόμενες μετρικές.
The World Wide Web is a “brilliant idea” of the 90’s, which has affected and still affects the lives of billions of people, giving the opportunity to users around the world to acquire access to a huge volume of information. It could be said that, the concept of World Wide Web is summarized exactly in the titles of three sessions of the Symposium for the tenth anniversary of the founding of W3C, which means that World Wide Web is a Web of Meaning, a Web on Everything and a Web for Everyone. Another perspective of World Wide Web has been given by Eric Schmidt who characterized it as “the first thing that humanity has built that humanity doesn't understand, the largest experiment in anarchy that we have ever had”. If World Wide Web is an invention of great importance, its evolution to Web 2.0, in other words all these technologies and applications, which enable the interactive exchange of information among users and generally, their participation in its creation, is equally important. Indeed, Tim O'Reilly, who introduced the term Web 2.0, described it as "business revolution in the computer industry". The significance lies in the fact that users have been strengthened, because it is provided to them not only more information with minimal effort, but also the tools to actively participate in various productive processes, such as planning, development and distribution of services, that later they will use. Unfortunately, the practices of Web 2.0 have not been widely adopted by most web applications, due to the fact that, Web 2.0 introduces a completely different culture, regarding the management and distribution of knowledge. The old limited and strictly controlled hierarchical model is replaced by a new, wide and horizontal model of freedoms, where every single user has rights and control over the data, a fact, that as it is expected, causes disbelief. Nevertheless, because, as it mentioned, the significance of Web 2.0 is great, it managed to penetrate into several applications. Library public catalogs (OPACs) as well as digital libraries are included among these applications. Some of the practices, which are adopted by libraries, concern the empowering of users so as they can make queries, in order to retrieve documents in several fields such as “Title”, ”Author” etc, assign keyword to books, called social tags, communicate using instant messages with librarians, be informed of new books in library through RSS feeds, etc. However, the difficulty in retrieving relative results that respond to users’ queries remains pretty high, due to the large volume of information, which is maintained. For this reason, this thesis suggests a methodology, whereby libraries and information services should further take advantage of Web 2.0 practices and more specifically of social tags, in order to improve these results. In particular, what is suggested is the use of social tags to enrich the subject headings of document records, in which they have been assigned. As a result, social tags are taken into account, without necessarily users’ queries being made in “Social Tags” field. The whole methodology of enrichment, begins with the evaluation of current state of library, through the degree of overlap of some of its basic files, so as to be exposed its possible weaknesses. For this reason, there defined seven overlap indicators, each of which has its own semantics and evaluate the library from different perspective. Then, a subset of all tags, made by users, is selected for being used for the enrichment. The selected tags should satisfy two criteria. It is not proposed the use of all tags, because library would be loaded with plenty of extra information, without commensurate utility. The first criterion has to do with the similarity of tag with the information (subject, title etc), maintained for the book, which is going to be enriched. This similarity must ranges from small to negligible. This criterion is necessary because, if a tag is similar to something that already exists in the record of book, the profit from this enrichment will be very small (how small depends on the degree of similarity). The second criterion concerns the value of the tag for the specified book. This value must be as small as possible. Where, the way of calculating the value of a tag on a book, will be defined in this thesis, taking into account two factors. Firstly, the popularity of a tag on a book, which is the number of users, has assigned this tag to the specific book. Secondly, the number of pages of the book in which the tag, is appeared. The first factor will be measured in the environment of Library Thing system, while the second will be found through an automatic indexing system, which is called Google Books. Moreover, in this thesis, three metrics have been defined, in order firstly to be found how much is improved the retrieval of books, by adopting the above methodology and secondly to be determined the percentage, according to which should be taken into account the two factors mentioned above. Finally, the suggested methodology was applied to experimental data from the digital library of Panteion University in order to draw more reliable conclusions about its value, by evaluating the results of this application, using the above metrics.
Λέξη κλειδί Web 2.0
Κοινωνικές επισημειώσεις
Social tags
Ημερομηνία 31-01-2012
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/