Abstract : | Στην εποχή μας, οι ανάγκες για χειραγώγηση δεδομένων πολλαπλασιάζονται με εκθετικό ρυθμό. Οι εταιρείες απασχολούν ολόκληρα τμήματα με ομάδες που μπορούν να υλοποιήσουν και να εφαρμόσουν τεχνικές μηχανικής εκμάθησης που είναι σε θέση να προσδιορίζουν μοτίβα των δεδομένων εισόδου και να παράγουν συστάσεις βάσει δεδομένων. Ο απώτερος σκοπός αυτών των υλοποιήσεων είναι η εξαγωγή των απαραίτητων πληροφοριών και κατά συνέπεια η δημιουργία εσόδων από τις πιθανές πληροφορίες που θα παραχθούν. Ωστόσο, ένα ζήτημα που εμφανίζεται με τέτοιες πρακτικές, τις περισσότερες φορές, είναι ότι με τον τεράστιο όγκο των διαθέσιμων δεδομένων, υπάρχει σημαντικός όγκος ευαίσθητων πληροφοριών σχετικά με φυσικά πρόσωπα.Για την προστασία της επεξεργασίας και της διάδοσης ευαίσθητων δεδομένων, τόσο οι νομοθέτες όσο και οι επιστήμονες είναι επιφορτισμένοι με τη διαμόρφωση κανόνων και εφαρμογών προστασίας της ιδιωτικότητας. Η ανωνυμοποίηση δεδομένων μπαίνει στο παιχνίδι για να αλλάξει ή να αφαιρέσει ακόμη και προσωπικές πληροφορίες σε σύνολα δεδομένων, ώστε να διασφαλιστεί ότι τα υποκείμενα δεν μπορούν πλέον να ταυτοποιηθούν είτε άμεσα είτε έμμεσα.Κύριος στόχος της διατριβής είναι η εξέταση των επιπτώσεων που μπορεί να προκαλέσει η ανωνυμοποίηση προσωπικών πληροφοριών σε ένα σύνολο δεδομένων, σχετικά με την ακρίβεια των προγνωστικών ικανοτήτων ενός μοντέλου μηχανικής μάθησης. In this day and age, the needs for data manipulation are multiplied with an exponential pace. Companies employ entire divisions with teams that can implement and apply machine learning techniques that are able to identify patterns of the input data and produce data-driven recommendations. The ultimate purpose of those implementations is to extract the necessary information and consequently monetize the potential insight that will be produced. However, an issue that occurs with such practices, more often than not, is, that with the huge volume of the data available, there is a substantial amount of sensitive information about individuals.To protect the processing and the dissemination of sensitive data, both lawmakers and scientists are tasked with formation of privacy protection rules and applications. Data anonymization comes into play to alter or remove even personal information in datasets to ensure that the subjects can no longer be identified either directly or indirectly.The thesis’s main objective is the examination of the effects the anonymization of personal information in a dataset can cause, regarding the accuracy of the predictive abilities of a machine learning model.
|
---|