Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο


Συλλογές	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations
Τίτλος	Αξιολόγηση και ζητήματα υλοποίησης visual και audio μεθόδων CAPTCHA
Δημιουργός	Γρινιεζάκη, Ελένη
Συντελεστής	Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής
Τύπος	Text
Γλώσσα	el
Περίληψη	The extensive abuse of the services, offered through the Internet, performed by automated programs, also known as bots, has led to the detection of new mechanisms to support the applications whose functionality is based on Internet services. In 2000 Luis von Ahn, Manuel Blum of Carnegie Mellon University and John Langford of IBM introduced the notion of CAPTCHA for any program that distinguishes humans from automated programs, willing to achieve access to services and resources offered through the Internet.The purpose of the specific Master thesis is, primarily, the examination of the vulnerabilities the most known visual and audio methods CAPTCHA present. Additionally, a collection of the characteristics, a method should satisfy in order to be resistant to attacks, is performed while an examination of the behavior of the systems that use the ASR technology (for the recognition of human speech), during the recognition process of an audio instance that concentrates specific characteristics, is achieved. The word CAPTCHA stands for “Completely Automated Public Turing test to tell Computers and Humans Apart”, which has the meaning of completely automated programs, that set to users a quiz, with the intention of distinguishing humans from computers. As mentioned above, the process, that these programs performed in order to create their test, should be as automated as possible so that the human interference should not be necessary. As well, the method and the data, used for the creation of the CAPTCHA instances, should be publicly available, so that the resistance of a method should not be based on the obscurity of this information.The word “Turing test” of the above definition implies that the tests, created by the CAPTCHA methods, are based on the notion Turing test introduced by Alan Turing, in 1950. Contrary to the traditional Turing tests, though, the judge is not a human but an automated program, reason for which CAPTCHAs are also known as reCAPTCHAs (reverse Turing tests).The first CAPTCHAs, to be introduced, were implemented by well-known websites, like Yahoo, Altavista and Hotmail, where a sequence of characters was presented within a distorted image, which users should have recognized in order to acquire access to their email service. CAPTCHAs of this form belong to the category of visual CAPTCHAs. The specific category, also, consists of methods whose functionality is based on the recognition of objects (recognition of an object within an image, similarities-differences among a volume of images) or on the correct answer of a question, appealing to the common knowledge of humans.The efficient application of visual CAPTCHAs has as fundamental condition the user’s ability of sight. As a result, the exclusive implementation of visual CAPTCHAs does not cover a great deal of users who are unable to solve their instances. In order to achieve accessibility from the majority of users, audio CAPTCHAs were introduced, the functionality of which on the ability of humans to recognize vocal messages, delivered into environments with high volume of noise.Studying the audio and visual methods CAPTCHA, implemented in practice, the majority of methods are presented vulnerable to attacks from automated programs, intended to break these specific methods. The pointed fact is observed by the volume of the methods broken by existing CAPTCHA decoders and the rate of success that these specific programs have achieved during the breaking process, as well.Observing the vulnerabilities that CAPTCHA decoders exploit in order to break CAPTCHA methods, we came up to the conclusion that the characteristics of the majority of methods, used to compose a CAPTCHA instance, do not offer an adequate level of variety. The above conclusion leads to the need of concentration of the characteristics that visual and audio methods should satisfy, in order to ensure the effectiveness of their functionality. These specific characteristics are related to implementation issues as well as demands, aroused by the definition of CAPTCHA, which audio and visual methods should satisfy.The last part of the master thesis is related to the examination of the behavior of ASR systems, during the breaking process of audio CAPTCHAs that concentrate specific characteristics in order to create their instances. ASR technology is used for the transformation of human speech into encoded data that a computer can read. In order the specific purpose to be achieved, information, about the vocal sample and the environment within which this is delivered, are collected using proper training techniques.By observing the performance of ASR systems during the recognition process of an audio instance which holds, solely, a specific characteristic, some conclusions are coming up relevant to the difficulty with which these systems deal in order to recognize speech with specific characteristics.Additive noise in an audio instance represents a good practice because as the degree of its implementation increases, the performance of ASR systems deteriorates. More specifically, in environments of low levels of noise the performance of ASR systems increases significantly, even better from that of humans. In medium levels of noise, both humans and ASR systems succeed the same degree of performance, while in high levels of noise the performance of ASR systems is very low.In case of implementing a simple technique of distortion, the performance of ASR systems is also very low. Especially in case of applying multiple techniques of distortion, the degree of performance decreases dramatically because the application of training techniques in more than one techniques of distortion becomes a very costly and difficult process.Additionally, the influence the degree, in which a characteristic is applied, exercises in the performance of ASR systems becomes evident. More specifically, as the data field increases, as the number of character varies and as the instances, created by the combination of the above characteristics, become rarer, the performance of ASR systems decreases.As well, the performance is influenced by the variability in the characteristics of the language in use and the variety of speaker’s features. If the language in use offers a great deal of variability (for instance, there is a large variety of phonemes which, be dependent on their neighbor phonemes, can be introduced, modified or deleted), ASR systems would have difficulty in recognizing human speech.The number of different speakers in use, for the delivery of each audio instance, also affects the performance of ASR systems. More specifically, as the number of the different speakers increases, the performance of ASR systems decreases. The above notification comes from the fact that there is a large variety of dialects, tones and nuances (because of the number of speakers), characteristics in which most ASR systems have difficulty in the training process.From the above research, some conclusions aroused. Primarily, most of the audio and visual methods, which are implemented in practice, are presented vulnerable in attacks from automated programs and that is the reason for which a minimum number of characteristics should be satisfied, in order to achieve a satisfactory level of resistance. Because of the number of CAPTCHA decoders that exist and the fact that these programs present a continuant upgrading, there is a constant demand for improvement of the techniques implemented on CAPTCHA methods. Additionally, by examining the performance of ASR systems, in recognizing audio instances with specific characteristics, it comes as a result that the techniques of distortion and additive noise represent the most powerful practices that an audio CAPTCHA should take into consideration in order to achieve high levels of resistance to malicious software.The results, mentioned above, constitute qualitative metrics for the effectiveness of an audio or visual method CAPTCHA. In practice questions arise relevant to whether it is possible to implement a combination of all the characteristics, described above, or a choice of a minimum number of characteristics should be applied. As well, there are issues to be discussed related to the degree to which the chosen characteristics should be implemented, such that the instances, created from these characteristics, would be easily recognized from the majority of humans. Η εκτεταμένη κατάχρηση των υπηρεσιών που προσφέρονται μέσω του διαδικτύου από αυτοματοποιημένα προγράμματα, γνωστά ως bots, οδήγησε στην αναζήτηση νέων μηχανισμών προστασίας των εφαρμογών που στηρίζουν την λειτουργία τους στις ηλεκτρονικές υπηρεσίες. Το 2000 οι Luis von Ahn, o Manuel Blum του Carnegie Mellon καθώς και ο John Langford της IBM εισήγαγαν την έννοια του CAPTCHA για οποιοδήποτε πρόγραμμα που μπορούσε να διακρίνει τους ανθρώπους από τα αυτοματοποιημένα προγράμματα που επιθυμούν να έχουν πρόσβαση στους πόρους και τις υπηρεσίες που προσφέρονται μέσω του διαδικτύου.Στόχος της συγκεκριμένης διπλωματικής εργασίας είναι, καταρχήν, η εξέταση των αδυναμιών που παρουσιάζουν οι πιο γνωστές μέθοδοι audio και visual CAPTCHA. Επιπλέον γίνεται η συλλογή των χαρακτηριστικών εκείνων που απαιτείται να πληροί μια μέθοδος προκειμένου να θεωρείται ανθεκτική σε επιθέσεις, ενώ στη συνέχεια εξετάζεται η συμπεριφορά των συστημάτων που χρησιμοποιούν την ASR τεχνολογία, για την αναγνώριση του ανθρώπινου λόγου, κατά τη προσπάθεια επίλυσης μιας audio μεθόδου CAPTCHA που συγκεντρώνει συγκεκριμένα χαρακτηριστικά.Ο συγκεκριμένος όρος (CAPTCHA) αποτελεί το ακρωνύμιο της φράσης “Completely Automated Public Turing test to tell Computers and Humans Apart”, το οποίο έχει την σημασία των πλήρως αυτοματοποιημένων προγραμμάτων τα οποία θέτουν στον χρήστη, προς επίλυση, δοκιμασίες με στόχο την διάκριση μεταξύ ανθρώπων και υπολογιστών. Όπως υποδηλώνεται και από τον πάνω ορισμό, η διαδικασία που ακολουθούν τα συγκεκριμένα προγράμματα, για την δημιουργία των δοκιμασιών τους, είναι επιθυμητό να είναι όσο το δυνατόν πιο αυτοματοποιημένα και να μην είναι απαραίτητη η ανθρώπινη παρέμβαση. Επίσης τα δεδομένα και η μέθοδος που χρησιμοποιούνται για την δημιουργία των στιγμιότυπων θα πρέπει να είναι δημόσια διαθέσιμα έτσι ώστε η ανθεκτικότητα των μεθόδων CAPTCHA να μην στηρίζεται στην απόκρυψη των πληροφοριών αυτών. Η λέξη “Turing test” του παραπάνω ορισμού υποδηλώνει ότι οι δοκιμασίες που δημιουργούνται από τις μεθόδους CAPTCHA στηρίζονται στην έννοια των Turing tests που είχε εισαγάγει ο Alan Turing, το 1950. Σε αντίθεση, όμως, με τα παραδοσιακά Turing tests, στα CAPTCHAs ο κριτής δεν είναι o ο άνθρωπος, όπως στην πρώτη περίπτωση, αλλά ένα αυτοματοποιημένο πρόγραμμα. Λόγω του γεγονότος αυτού τα CAPTCHAs συναντώνται συχνά στην βιβλιογραφία και ως reCAPTCHAs (reverse Turing tests).Οι πρώτες προσπάθειες εισαγωγής των συγκεκριμένων προγραμμάτων σημειώθηκε από γνωστούς ιστότοπους, όπως το Hotmail, το Altavista και το Yahoo, οι οποίοι εμφάνιζαν μια ακολουθία χαρακτήρων εντός μιας παραμορφωμένης εικόνας την οποία οι χρήστες καλούνταν να αναγνωρίσουν προκειμένου να αποκτήσουν πρόσβαση στην υπηρεσία του ηλεκτρονικού τους ταχυδρομείου. Τα συγκεκριμένης μορφής CAPTCHAs ανήκουν στην κατηγορία των visual CAPTCHAs. Στη συγκεκριμένη κατηγορία ανήκουν, επίσης, μέθοδοι που στηρίζουν την λειτουργία τους στην αναγνώριση αντικειμένων (αναγνώριση αντικειμένου εντός μιας εικόνας, ομοιότητες-διαφορές από ένα σύνολο εικόνων) καθώς και στην επίλυση μιας ερώτησης που επικαλείται την απλή λογική του ανθρώπου. Η συγκεκριμένη κατηγορία CAPTCHAs προϋποθέτει, για την αποτελεσματική εφαρμογή της, την ικανότητα οράσεως του χρήστη. Λόγω του γεγονότος αυτού η αποκλειστική εφαρμογή των visual CAPTCHAs απέκλειε ένα μεγάλο ποσοστό των χρηστών που, λόγω κάποιας ιδιαιτερότητας, αντιμετώπιζαν προβλήματα στην επίλυση τους. Προκειμένου να επιτευχθεί η προσβασιμότητα των υπό προστασία υπηρεσιών, που προσφέρονται μέσω του διαδικτύου, από την πλειοψηφία των χρηστών εισήχθηκαν τα audio CAPTCHAs, τα οποία στηρίζουν την λειτουργία τους στην ικανότητα του ανθρώπου να αναγνωρίσει ένα φωνητικό μήνυμα ακόμα και σε περιβάλλοντα με υψηλά επίπεδα θορύβου.Μελετώντας τις audio και visual μεθόδους CAPTCHA που εφαρμόζονται στην πράξη, παρατηρείται ότι η πλειοψηφία των μεθόδων που υπάρχουν παρουσιάζονται ιδιαίτερα ευάλωτες σε επιθέσεις από αυτοματοποιημένα προγράμματα τα οποία έχουν ως στόχο την παραβίαση των συγκεκριμένων μεθόδων. Το γεγονός αυτό καταδεικνύεται από το πλήθος των μεθόδων που έχει παραβιαστεί από αυτοματοποιημένα προγράμματα καθώς και από τα ποσοστά επιτυχίας που έχουν πραγματοποιήσει τα συγκεκριμένα προγράμματα κατά τη προσπάθεια παραβίασης των μεθόδων CAPTCHAs. Παρατηρώντας τις αδυναμίες που εκμεταλλεύονται τα συγκεκριμένα προγράμματα προκειμένου να παραβιάσουν τις μεθόδους CAPTCHA, προκύπτει το συμπέρασμα ότι η πλειοψηφία των μεθόδων που εφαρμόζονται υστερούν σε ποικιλία των χαρακτηριστικών που χρησιμοποιούν για την σύνθεση των στιγμιότυπων τους. Το γεγονός αυτό δημιούργησε την ανάγκη συγκέντρωσης των χαρακτηριστικών εκείνων που θα πρέπει να ικανοποιούν, τόσο οι audio, όσο και οι visual μέθοδοι CAPTCHA, προκειμένου να εξασφαλίσουν την αποτελεσματική λειτουργία τους. Τα συγκεκριμένα χαρακτηριστικά, σχετίζονται τόσο με θέματα υλοποίησης, όσο και με απαιτήσεις που προκύπτουν από τον ορισμό του CAPTCHA και τις οποίες πρέπει να ικανοποιούν οι audio και visual μέθοδοι.Στο τελευταίο κομμάτι της εργασίας εξετάζεται η συμπεριφορά των συστημάτων που χρησιμοποιούν την ASR τεχνολογία, κατά τη διαδικασία παραβίασης audio μεθόδων CAPTCHA οι οποίες συγκεντρώνουν συγκεκριμένα χαρακτηριστικά για την σύνθεση των φωνητικών μηνυμάτων από τα οποία αποτελούνται οι δοκιμασίες τους. Η συγκεκριμένη τεχνολογία μετατρέπει τον εκφωνούμενο λόγο σε κατάλληλα κωδικοποιημένα δεδομένα τα οποία ο υπολογιστής μπορεί να αναγνωρίσει. Για να επιτευχθεί ο συγκεκριμένος σκοπός συλλέγονται πληροφορίες σχετικά με το φωνητικό μήνυμα και το περιβάλλον μέσα στο οποίο αυτό εκφωνείται, χρησιμοποιώντας κατάλληλες τεχνικές εκμάθησης. Παρατηρώντας την απόδοση των ASR συστημάτων, κατά την αναγνώριση ενός audio στιγμιότυπου στο οποίο εφαρμόζεται, μεμονωμένα, ένα συγκεκριμένο χαρακτηριστικό, προκύπτουν κάποια συμπεράσματα σχετικά με τη δυσκολία που αντιμετωπίζουν τα συγκεκριμένα συστήματα στην αναγνώριση του εκφωνούμενου λόγου που συγκεντρώνει συγκεκριμένα χαρακτηριστικά. Η τεχνική της προσθήκης επιπρόσθετου θορύβου, εκφώνηση ενός φωνητικού μηνύματος, αποτελεί μια αρκετά καλή πρακτική καθώς όσο αυξάνει ο βαθμός της εφαρμογής της, τόσο επηρεάζεται αρνητικά η απόδοση του συστήματος. Πιο συγκεκριμένα σε επίπεδα χαμηλού θορύβου, η απόδοση των ASR συστημάτων φαίνεται να είναι αρκετά υψηλή, πολλές φορές καλύτερη και από την αντίστοιχη απόδοση των ανθρώπων. Σε μέτρια επίπεδα, ο βαθμός απόδοσης είναι σχεδόν ίδιος τόσο για τα ASR συστήματα, όσο και για τους ανθρώπους, ενώ για υψηλά επίπεδα θορύβου η απόδοση των συστημάτων είναι ιδιαίτερα χαμηλή.Στην περίπτωση εφαρμογής ακόμα και μιας απλής τεχνικής παραμόρφωσης, η απόδοση των ASR συστημάτων φαίνεται να είναι αρκετά χαμηλή. Ιδιαίτερα στην περίπτωση εφαρμογής πολλαπλών τεχνικών παραμόρφωσης ο βαθμός απόδοσης μειώνεται σε πολύ χαμηλά επίπεδα, λόγω του ότι είναι αδύνατη, τουλάχιστον μέχρι στιγμής, η διαδικασία εκμάθησης σε παραπάνω από μία τεχνικές παραμόρφωσης.Επιπλέον παρατηρείται ότι ανάλογα με το πόσο έντονα εφαρμόζεται ένα συγκεκριμένο χαρακτηριστικό, η απόδοση των ASR συστημάτων φαίνεται να φθίνει. Πιο συγκεκριμένα, όσο αυξάνεται το εύρος του πεδίου δεδομένων, όσο πιο μεταβλητό είναι το πλήθος των χαρακτήρων και όσο πιο σπάνια είναι τα στιγμιότυπα που προκύπτουν από των συνδυασμό συγκεκριμένων χαρακτηριστικών, τόσο χειρότερη είναι η απόδοση των ASR συστημάτων.Επιπρόσθετα, η απόδοση επηρεάζεται από την ποικιλομορφία των χαρακτηριστικών της γλώσσας που χρησιμοποιείται, καθώς και από την ποικιλία των χαρακτηριστικών του εκφωνητή. Όταν η γλώσσα που χρησιμοποιείται παρουσιάζει μεγάλη ποικιλία (παραδείγματος χάριν υπάρχει μεγάλη ποικιλία φωνημάτων τα οποία ανάλογα με τα γειτονικά τους φωνήματα μπορεί να διαγράφονται, εισάγονται ή τροποποιούνται), τα ASR συστήματα φαίνεται να δυσκολεύονται σε μεγάλο βαθμό να αναγνωρίσουν τον εκφωνούμενο λόγο. Το πλήθος των διαφορετικών εκφωνητών που χρησιμοποιούνται για την εκφώνηση του εκάστοτε φωνητικού μηνύματος, επίσης, επηρεάζει την απόδοση των ASR συστημάτων. Πιο συγκεκριμένα, όσο περισσότεροι είναι οι διαφορετικοί εκφωνητές, τόσο χειρότερη είναι η απόδοση των συστημάτων αυτών. Το γεγονός αυτό οφείλεται στο ότι, λόγω του πλήθους των εκφωνητών, μπορεί να υπάρχουν πολλές και διαφορετικές διάλεκτοι καθώς και διαφορετικοί τόνοι και χροιές, χαρακτηριστικά στα οποία τα ASR συστήματα δυσκολεύονται να εκπαιδευτούν.Από τη παραπάνω μελέτη προέκυψαν κάποια συμπεράσματα. Κατ’ αρχήν, οι περισσότερες μέθοδοι, τόσο visual, όσο και audio, που εφαρμόζονται στην πράξη παρουσιάζονται ιδιαίτερα ευάλωτες σε επιθέσεις από αυτοματοποιημένα προγράμματα. Για το λόγο αυτό θα πρέπει να επιλέγεται ένας ελάχιστος αριθμός χαρακτηριστικών τα οποία θα πρέπει να πληροί μια μέθοδος προκειμένου να είναι ανθεκτική σε επιθέσεις. Λόγω του πλήθους των προγραμμάτων παραβίασης που κυκλοφορούν, καθώς και της συνεχής βελτίωσης που σημειώνουν τα προγράμματα αυτά, προκύπτει η ανάγκη συνεχούς βελτίωσης των μεθόδων CAPTCHA που εφαρμόζονται. Τέλος, από την μελέτη της απόδοσης των ASR συστημάτων στην αναγνώριση ενός audio στιγμιότυπου με συγκεκριμένα χαρακτηριστικά, παρατηρείται ότι οι τεχνικές της προσθήκης υψηλού επιπέδου θορύβου και της εφαρμογής πολλαπλής παραμόρφωσης αποτελούν τις πιο ισχυρές πρακτικές για την ανάπτυξη ανθεκτικών audio CAPTCHAs.Τα παραπάνω αποτελέσματα αποτελούν ποιοτικές μετρικές για την αποτελεσματικότητα της εφαρμογής των audio και visual μεθόδων CAPTCHA. Στην πράξη μπορεί να προκύψουν ζητήματα σχετικά με το κατά πόσο είναι εφικτό να εφαρμοστεί ο συνδυασμός όλων των χαρακτηριστικών που περιγράφηκαν παραπάνω ή αν θα πρέπει να γίνει επιλογή των ελάχιστων χαρακτηριστικών που θα πρέπει να πληρούνται. Επιπλέον θα πρέπει να λυθούν θέματα σχετικά με τον βαθμό στον οποίο θα εφαρμοστούν τα χαρακτηριστικά που επιλέχθηκαν με τέτοιο τρόπο ώστε τα στιγμιότυπα που προκύπτουν να είναι εύκολα επιλύσιμα από τον χρήστη.
Λέξη κλειδί	Completely Automated Public Turing test to tell Computers and Humans Apart (CAPTCHA) Audio μέθοδοι Visual μέθοδοι Automatic Speech Recognition (ASR)
Ημερομηνία	20-02-2008
Άδεια χρήσης	https://creativecommons.org/licenses/by/4.0/