PYXIDA Institutional Repository
and Digital Library
Collections :

Title :Spatio-textual data integration with Artificial Intelligence (AI): toponym interlinking
Alternative Title :Ενσωμάτωση δεδομένων γεωγραφικής τοποθεσίας και λέξεων με τη χρήση Τεχνητής Νοημοσύνης (AI): διασύνδεση τοπωνυμίων
Creator :Ntzoufas, Alexandros
Ντζούφας, Αλέξανδρος
Contributor :Papageorgiou, Haris (Επιβλέπων καθηγητής)
Παπαγεωργίου, Χάρης (Επιβλέπων καθηγητής)
Type :Text
Extent :97p.
Language :en
Identifier :
Abstract :Toponym matching comprises the problem of identifying same real-world spatio-textual entities exclusively based on their name. It is a fundamental problem for several applications related to geographical information retrieval and the geographical information sciences, such as conflation of digital gazetteers or point-of-interest datasets, address parsing in geocoding and map search services or toponym resolution over textual contents, digitized maps and digital library contents (Santos, Murrieta-Flores, Pável, & Martins, 2017). This study is dealing with pairs of toponyms which either refer to the same place or not. Given a random toponym pair, this study is trying to predict whether it is matching or non-matching (true or false) by exploiting classification algorithms. The main pillars of the toponym matching approach which we followed in the context of this study are three: a) the word embedding learning models, b) the feature extraction methods and c) machine learning and deep learning classification algorithms. As expected, the deep learning algorithms exceeded in performance the machine learning algorithms. The fully connected neural network reached the highest f1-score and accuracy, followed by LSTM and CNN, while MLP performed better than XG Boost and Random Forest. More specifically, the f1-score and accuracy of the fully connected model were equal to 85.2% and 85.05%, respectively. It’s worth mentioning that the results of our approach exceeded significantly several published results based on string similarity metrics (Santosa, Murrieta-Floresb, & Martins, 2018) while they are quite close to state of the art.
Table of Contents :Η αντιστοίχιση τοπωνυμίων περιλαμβάνει την αναγνώριση ίδιων γεωγραφικών οντοτήτων λαμβάνοντας υπόψη αποκλειστικά το όνομά τους. Είναι ένα θεμελιώδες πρόβλημα για αρκετές εφαρμογές που σχετίζονται με την ανάκτηση γεωγραφικών πληροφοριών, όπως ο συνδυασμός δεδομένων σημείων ενδιαφέροντος, η γεωκωδικοποίηση και οι ψηφιοποιημένοι χάρτες (Santos, Murrieta-Flores, Pável, & Martins, 2017). Αυτή η μελέτη ασχολείται με ζευγάρια τοπωνυμίων που αναφέρονται στο ίδιο ή σε διαφορετικό γεωγραφικό μέρος. Δεδομένου ενός τυχαίου ζεύγους τοπωνυμίων, αυτή η μελέτη προσπαθεί να προβλέψει αν αναφέρεται στην ίδια γεωγραφική περιοχή ή όχι (αληθές ή λάθος) αξιοποιώντας αλγόριθμους ταξινόμησης.Οι κύριοι πυλώνες της προσέγγισης που ακολουθήσαμε είναι τρεις: α) τα μοντέλα μάθησης ενσωμάτωσης λέξεων, β) οι μέθοδοι εξαγωγής χαρακτηριστικών και γ) οι αλγόριθμοι μηχανικής μάθησης. Όπως αναμενόταν, οι αλγόριθμοι βαθιάς μάθησης ξεπέρασαν την απόδοση των αλγορίθμων μηχανικής μάθησης. Το πλήρως συνδεδεμένο νευρωνικό δίκτυο εξασφάλισε την υψηλότερη βαθμολογία στους δείκτες f1-score και ακρίβειας (accuracy), ακολουθούμενο από τους LSTM και CNN αλγορίθμους, ενώ αναφορικά με τους αλγόριθμους μηχανικής μάθησης, ο MLP είχε καλύτερη απόδοση από τον XG Boost και τον Random Forest. Πιο συγκεκριμένα, η βαθμολογία f1-score και η ακρίβεια του πλήρως συνδεδεμένου μοντέλου ήταν της τάξεως του 85,2% και 85,05%, αντίστοιχα. Αξίζει να σημειωθεί ότι τα αποτελέσματα της προσέγγισής μας ξεπέρασαν σημαντικά δημοσιευμένα αποτελέσματα μετρικών ομοιότητας συμβολοσειρών (Santosa, Murrieta-Floresb, & Martins, 2018), ενώ πλησιάζουν πολύ τα αντίστοιχα αποτελέσματα μελετών μηχανικής εκμάθησης και προσεγγίσεις βαθιάς μάθησης που στηρίζονται στα δεδομένα γεωγραφικών ονομάτων που χρησιμοποιήσαμε (Santos, Murrieta-Flores, Pável, & Martins, 2017; Giannopoulos, Kaffes, & Kostoulas, 2020).
Subject :Toponym matching
Geographic Information Retrieval (GIR)
Natural Language Processing (NLP)
Machine learning
Deep learning
Αντιστοίχιση τοπονυμίων
Ανάκτηση γεωγραφικών πληροφοριών
Επεξεργασία φυσικής γλώσσας
Μηχανική μάθηση
Βαθιά μάθηση
Date Available :2020-12-21 13:26:09
Date Issued :30-07-2020
Date Submitted :2020-12-21 13:26:09
Access Rights :Free access
Licence :

File: ntzoufas_2019.pdf

Type: application/pdf