PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :A distributed entity resolution service with deep learning
Alternative Title :Κατανεμημένη υπηρεσία επίλυσης οντοτήτων με τεχνικές βαθιάς μάθησης
Creator :Χατζηδημητρίου, Ευάγγελος
Chatzidimitriou, Evangelos
Contributor :Κωτίδης, Ιωάννης (Επιβλέπων καθηγητής)
Μαλακασιώτης, Πρόδρομος (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)
Type :Text
Extent :103p.
Language :en
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7498
Abstract :Το πρόβλημα επίλυσης οντοτήτων (Πρόβλημα συνδέσμου εγγραφών ή πρόβλημα δημιουργίας αντιγράφων) είναι η αντιστοίχιση οντοτήτων σε δύο ή περισσότερα σύνολα δεδομένων, που αναφέρονται στην ίδια αντικειμενική οντότητα. Μία από τις τελευταίες και πιο προηγμένες προσεγγίσεις του προβλήματος είναι το πλαίσιο DeepER, που προτάθηκε από τον Muhammad Ebraheem το 2018. Η βασική ιδέα της λειτουργικότητας του DeepER είναι να αντιμετωπίσει το πρόβλημα ως πρόβλημα Ανάλυσης Κειμένου: Υποθέτει ότι τα υποψήφια ζεύγη οντοτήτων που πρέπει να αντιστοιχιθούν βρίσκονται σε πηγές δεδομένων πανομοιότυπων σχημάτων και διερευνά την ομοιότητα κειμένου των ευθυγραμμισμένων στηλών μεταξύ των υποψήφιων οντοτήτων. Αφού πραγματοποιήσει τέτοιες μετρήσεις, προσπαθεί να τροφοδοτήσει έναν ταξινομητή Νευρικού Δικτύου με τις προαναφερθείσες πληροφορίες, ώστε αυτός να καταστεί δυνατός προς διάκριση ανάμεσα στα πραγματικά αντίστοιχα ζεύγη και τα ζευγάρια που δεν ταιριάζουν. Ωστόσο, αυτό το πλαίσιο υποθέτει ότι τα σχήματα των διαφορετικών πηγών δεδομένων από τα οποία προέρχονται οι οντότητες είναι πράγματι πανομοιότυπα, κάτι που σπάνια συμβαίνει σε πραγματικά σύνολα δεδομένων. Επιπλέον, υπάρχουν εμπόδια και σε περιπτώσεις όπου μια τιμή χαρακτηριστικού που πρέπει να εξεταστεί δεν είναι εγγενώς σε μορφή κειμένου, αλλά πρόκειται για έναν αριθμό, δεδομένου ότι το παραπάνω πλαίσιο χρησιμοποιεί μετρήσεις ομοιότητας ακατέργαστου κειμένου μεταξύ υποψήφιων οντοτήτων για την τροφοδότηση του Νευρωνικού Δικτύου.Σε αυτή τη διατριβή, επιχειρήθηκε γενίκευση της προαναφερθείσας διαδικασίας για περιπτώσεις μερικής ή ολικής μη-ευθυγράμμισης μεταξύ των διαφόρων χαρακτηριστικών των πηγών δεδομένων.Η εφαρμοζόμενη μεθοδολογία ακολουθεί, κατά το μάλλον ή ήττον, την ίδια ροή εργασίας του συστήματος DeepER, με κάποιες κρίσιμες διαφοροποιήσεις: Υποθέτοντας τον μερικό ή ολικό αγνωστικισμό σχετικά με την ευθυγράμμιση των χαρακτηριστικών, προσπαθούμε να συγχωνεύσουμε το πλαίσιο των μη ευθυγραμμισμένων χαρακτηριστικών σε μια καινούργια στήλη και να χρησιμοποιήσουμε αυτή τη νέα 'συγχωνευμένη' στήλη για να μετρήσουμε την ομοιότητα κειμένου μεταξύ των αντικανονικών χαρακτηριστικών των οντοτήτων, ενώ συγχρόνως όλες οι ευθυγραμμισμένες στήλες αντιμετωπίζονται με τον ίδιο ακριβώς τρόπο όπως στο DeepER. Αφού εκτελέσουμε τις μετρήσεις ομοιότητας μεταξύ των ευθυγραμμισμένων χαρακτηριστικών και της «συγχωνευμένης στήλης των μη ευθυγραμμισμένων χαρακτηριστικών», επιχειρούμε να τροφοδοτήσουμε έναν ταξινομητή Νευρικού Δικτύου με αυτές τις πληροφορίες προκειμένου να τον εκπαιδεύσουμε ώστε να γίνει διάκριση μεταξύ αντίστοιχων και μη αντίστοιχων οντοτήτων. Πραγματοποιήθηκαν επιπλέον πειραματισμοί με στόχο την αποφυγή οποιωνδήποτε μετρήσεων ομοιότητας μεταξύ χαρακτηριστικών, απλά πραγματοποιώντας συνένωση του κειμενικού πλαισίου των υποψήφιων οντοτήτων σε μία καινούργια πρόταση και την τροφοδοσία ενός ταξινομητή Νευρωνικού Δικτύου απευθείας με τον αντίστοιχο φορέα λέξεων της φράσης. Επίσης, αποφεύγουμε το πρόβλημα των μη κειμενικών τιμών χαρακτηριστικών (δηλαδή αριθμών που δεν μπορούν να χαρτογραφηθούν αποτελεσματικά σε έναν σημασιολογικό χώρο) αντικαθιστώντας όλους τους αριθμούς με την αντίστοιχη μορφή κειμένου, χρησιμοποιώντας το πακέτο num2words.Τα αποτελέσματα της ταξινόμησης ήταν περισσότερο από ενθαρρυντικά. Το πλαίσιό μας κατάφερε να διακρίνει αρκετά αποτελεσματικά μεταξύ των αντίστοιχων και μη αντίστοιχων ζευγών οντοτήτων, ακόμη και όταν υποτίθεται ότι υπάρχει μερική ή ολική έλλειψη ευθυγράμμισης σχήματος. Επιπλέον, υπάρχουν ενδείξεις ότι υπάρχει αντιστρόφως ανάλογη σχέση μεταξύ του αριθμού των υποτιθέμενων μη ευθυγραμμισμένων χαρακτηριστικών και της απόδοσης του ταξινομητή. Ωστόσο, η μείωση της απόδοσης ταξινόμησης όταν θεωρούμε λιγότερες ευθυγραμμισμένες ιδιότητες είναι πολύ μικρή, υποδηλώνοντας ότι θα μπορούσε κανείς να λύσει με ακρίβεια το ER πρόβλημα ακόμη κι αν υπάρχει το στοιχείο του αγνωστικισμού σχετικά με την ευθυγράμμιση του σχήματος.Τέλος, προσπαθήσαμε να συνδυάσουμε τον προ-εκπαιδευμένο ταξινομητή Νευρωνικού Δικτύου με διαδικασίες Locality Sensitive Hashing (με τη μορφή Δασικού Συνεδρίου LSH) σε ένα ενιαίο πλαίσιο εξαγωγής όμοιων οντοτήτων. Αυτό το πλαίσιο επιχειρεί να μειώσει τον αριθμό των υπολογισμών όταν κάποιος προσπαθεί να εξάγει όλα τα όμοια ζεύγη μεταξύ δύο πηγών δεδομένων, αποφεύγοντας τη δοκιμή για όλους τους πιθανούς συνδυασμούς ζευγών. Τα αποτελέσματα δεν μπορούν να χαρακτηριστούν σε καμία περίπτωση τέλεια, αλλά είναι εν τούτοις αρκετά ενθαρρυντικά. Το παραπάνω πλαίσιο καταφέρνει να ανιχνεύει τα αληθινά αντίστοιχα ζεύγη ανάμεσα σε δύο πηγές δεδομένων πιο συχνά από τις περιπτώσεις που αποτυγχάνει, γεγονός που υποδηλώνει ότι υπάρχει δυνατότητα κατασκευής μιας ενιαίας υπηρεσίας, εξουσιοδοτημένης με τεχνικές βαθιάς μάθησης και χαρακτηριστικά διανομής, που εξάγει όλα τα αντίστοιχα ζεύγη μεταξύ διαφόρων πηγών δεδομένων, όποτε τέτοια ζεύγη υπάρχουν.
The Entity Resolution Problem (also known as Record Linkage or Deduplication) is the task of matching entities across two or more datasets that refer to the same world entity. One of the latest and most advanced approaches to the problem is the DeepER framework suggested by Muhammad Ebraheem in 2018 (M. Ebraheem, 2018). The main idea of DeepER’s functionality is to address the problem as a Text Analysis problem: It assumes that the candidate entities to be matched exist in data sources of identical schemas and, given that, it investigates the textual similarity of the aligned columns between the candidate entities. After performing such measurements, it attempts to feed a Neural Network Classifier with the aforementioned information, so that it learns to distinguish between true matching and no matching pairs. However, this framework directly assumes that the schemas of the various data sources from which the entities come from are indeed identical, which is rarely the case in real world datasets. In addition, obstacles are also present in cases where an attribute value to be examined is not inherently a string, but a number, since the above framework uses similarity measurements of raw text between candidate entities to feed the NN classifier. In this thesis, an attempt was made towards generalizing the aforementioned procedure for the cases of partial or total misalignment between the various data sources’ attribute schemas.The applied methodology follows, more or less, the same workflow of the DeepER system, with some critical differentiations: Assuming partial or total agnosticism about the attributes’ alignment, we attempt to merge their context to a single column and use this new ‘merged’ column to measure the textual similarity between the entities’ misaligned attributes, while at the same time all the aligned attributes are treated in the exact same way as in DeepER. After performing the similarity measurements between the aligned attributes and the ‘merged column of misaligned attributes’, we attempt to feed a Neural Network Classifier with this information in order to train him to distinguish between matching and non-matching entities. Experimentations were also made towards the goal of avoiding any similarity measurements between attributes, simply by concatenating the textual context of the candidate entities to a single sentence and feed a Neural Network classifier directly with the sentence’s respective word vector. We also avoid the problem of non-textual attribute values (that is, numbers that cannot be mapped to a semantic space effectively) by replacing all numbers with their respective text format, using num2words package.The classification results were more than encouraging. Our framework managed to distinguish between the matching and non-matching pairs quite effectively, even when assuming partial or total schema misalignment. What is more, there is evidence that there is some tradeoff between the number of assumed misaligned attributes and the classifier’s performance. However, the decrease in the classification performance when assuming a smaller number of aligned attributes is quite small, suggesting that one could quite accurately solve the ER problem even if the element of agnosticism about the schema’s alignment is present.Finally, we attempted to combine the pre-trained NN classifier with Locality Sensitive Hashing procedures (in the form of a LSH Recommendation Forest) in a single ‘match extracting framework’. This framework attempts to diminish the number of computations when one tries to extract all the matching pairs between two data sources, by avoiding testing for all possible pair combinations. The results were far from perfect, but still, quite encouraging. The above framework manages to detect the true matching pairs between two data sources more often than not, suggesting that there is possibility of constructing a single service, empowered with Deep Learning techniques and Distributional characteristics, that extracts all the matching pairs between various data sources whenever such pairs are existent.
Subject :Μηχανική μάθηση
Βαθιά μάθηση
Επίλυση οντοτήτων
Νευρωνικά δίκτυα
Ταξινόμηση
Machine learning
Deep learning
Entity resolution
Neural Networks (NN)
Classification
Date Available :2020-01-28 20:03:59
Date Issued :2019
Date Submitted :2020-01-28 20:03:59
Access Rights :Free access
Licence :

File: Chatzidimitriou_2019.pdf

Type: application/pdf