Εντοπίστηκε ένα σφάλμα στη λειτουργία της ΠΥΞΙΔΑΣ όταν χρησιμοποιείται μέσω του προγράμματος περιήγησης Safari. Μέχρι να αποκατασταθεί το πρόβλημα, προτείνουμε τη χρήση εναλλακτικού browser όπως ο Chrome ή ο Firefox. A bug has been identified in the operation of the PYXIDA platform when accessed via the Safari browser. Until the problem is resolved, we recommend using an alternative browser such as Chrome or Firefox.
 

Matching of structure entities among unreliable sources

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsel
dc.contributor.opponentXylomenos, Georgeen
dc.contributor.opponentKotidis, Yannisen
dc.contributor.thesisadvisorVassalos, Vasiliosen
dc.creatorChatzilygeroudi, Georgiaen
dc.creatorΧατζηλυγερούδη, Γεωργίαel
dc.date.accessioned2025-03-26T19:58:09Z
dc.date.available2025-03-26T19:58:09Z
dc.date.issued01/14/2021
dc.date.submitted2021-02-01 11:51:00
dc.description.abstractData integration is the problem of merging data for a real word entity from different sources and providing the user a single representation of that data. Multiple sources provide information about entities that may not be reliable or may have incomplete data. That is, for the same entity there might be conflicts among the sources. A real world entity can be many things, for example, a person, an item, a place, an event etc. The task of data integration is essential in real world applications and very important for companies, where data sets are being produced independently by multiple researchers. This thesis concerns the development of a data integration system that can handle the presence of data conflicts. We focus on entity resolution and data fusion, the two key elements of data integration. Entity resolution or duplicate detection is the problem of identifying different records that refer to the same real-world entity. Data fusion is the problem of detecting inconsistencies among data sources by estimating their accuracy. We first provide fundamental information for data integration process and an overview of related fields. Second, we present a data integration related system that we developed as an extension and improvement of an existing code (that implements data integration steps, proposed by Dr. Rekatsinas). Moreover, a code was developed to generate data (as training and test sets) adapted to the requirements of the problem. Finally, we present our experiments for the evaluation of our system and corresponding metrics, which show a significant improvement to the results of the initial system (code).en
dc.description.abstractΗ ολοκλήρωση δεδομένων είναι η συλλογή πληροφοριών από ποικίλες πηγές με διαφορετικές μορφές, το ταίριασμα και η σύνδεση αυτών, έτσι ώστε να φτάνουν στον χρήστη ως μία κοινή αναπαράσταση. Πολλές πηγές παρέχουν πληροφορίες σχετικά με πραγματικές οντότητες, που μπορεί να μην είναι αξιόπιστες ή ενδέχεται να έχουν ελλιπή δεδομένα. ∆ηλαδή για την ίδια οντότητα ενδέχεται να υπάρχουν συγκρούσεις και ασυνέπειες μεταξύ των πηγών. Μια οντότητα μπορεί να είναι πολλά πράγματα, για παράδειγμα, ένα άτομο, ένα αντικείμενο, ένα μέρος, ένα συμβάν. Αυτή η διατριβή αφορά την ανάπτυξη ενός συστήματος ολοκλήρωσης δεδομένων που μπορεί να χειριστεί την παρουσία τέτοιου είδους δεδομένων. Εστιάζουμε στην ανάλυση οντοτήτων και την συγχώνευση δεδομένων, τα δύο βασικά στοιχεία της ολοκλήρωσης πληροφοριών. Η ανάλυση οντοτήτων είναι το πρόβλημα του εντοπισμού διαφορετικών εγγραφών που αναφέρονται στην ίδια πραγματική οντότητα ενώ η συγχώνευση δεδομένων είναι το πρόβλημα της ανίχνευσης ασυνεπειών στα δεδομένα μεταξύ των πηγών εκτιμώντας την εγκυρότητα κάθε πηγής. Αρχικά, παρέχουμε κάποιες βασικές πληροφορίες για τη διαδικασία ολοκλήρωσης δεδομένων και μία επισκόπηση των σχετικών επιστημονικών πεδίων. ́Υστερα,παρουσιάζουμε ένα σύστημα ολοκλήρωσης πληροφοριών που αναπτύξαμε ως επέκταση και βελτίωση ενός υπάρχοντος κώδικα. Επιπλέον, λόγω έλλειψης πραγματικών δεδομένων αναπτύχθηκε ένας κώδικας για τη δημιουργία δεδομένων (ωςσύνολα δεδομένων εκπαίδευσης και επικύρωσης) προσαρμοσμένο στις απαιτήσεις του προβλήματος. Τέλος, αναλύουμε τα πειράματα που έγιναν για την αξιολόγηση του συστήματος μας και τα αντίστοιχα μετρικά που χρησιμοποιήσαμε,τα οποία δείχνουν σημαντική βελτίωση στα αποτελέσματα του αρχικού συστήματος (κώδικα).el
dc.embargo.expire2021-02-01 11:51:00
dc.embargo.ruleOpen access
dc.format.extent64p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8328
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/9813
dc.languageen
dc.rightsCC BY: Attribution alone 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectData integrationen
dc.subjectEntity resolutionen
dc.subjectData fusionen
dc.subjectΟλοκλήρωση δεδομένωνel
dc.subjectΑνάλυση οντοτήτωνel
dc.subjectΣυγχώνευση δεδομένωνel
dc.titleMatching of structure entities among unreliable sourcesen
dc.title.alternativeΑντιστοίχιση πραγματικών οντοτήτων μεταξύ διαφορετικών και αναξιόπιστων πηγώνel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Chatzilygeroudi_2020.pdf
Μέγεθος:
1.78 MB
Μορφότυπο:
Adobe Portable Document Format