Abstract : | Στην παρούσα διπλωματική εργασία ασχοληθήκαμε με την δημιουργία ενός συστήματος αναγνώρισης ονομάτων οντοτήτων για αγγελίες εργασίας και πειραματιστήκαμε με δύο διαφορετικά μοντέλα, Bi-LTSMs με CRF (Flair framework) και BERT-base.Τα δεδομένα που χρησιμοποιήθηκαν ήταν αγγελίες εργασίας και οι οντότητες τους είχαν επισημειωθεί με έξι τύπους κατηγοριών: τίτλος επαγγέλματος, τεχνικές δεξιότητες, κοινωνικές δεξιότητες, γλώσσα, τομέας σπουδών και επίπεδο σπουδών. Στα αποτελέσματα των πειραμάτων μας, το μοντέλο που χρησιμοποιεί το Flair framework είχε καλύτερη επίδοση από το BERT-base.Επιπλέον, βρήκαμε ένα τρόπο αναπαράστασης και ένωσης των αγγελιών με τη χρήση γράφου. Στο προτεινόμενο σχήμα, οι αγγελίες εργασίας και όλες οι πιθανές οντότητες, που μπορούν να βρεθούν σε μια αγγελία, αναπαρίστανται με κόμβους. Ακμές προστίθενται μεταξύ των αγγελιών και των οντοτήτων. Χρησιμοποιώντας αυτή την αναπαράσταση και Node2Vec πήραμε αναπαραστάσεις των κόμβων και εκτελέσαμε διάφορα ερωτήματα για να εξετάσουμε αν το προτεινόμενο σχήμα γραφήματος μπορεί να χρησιμοποιηθεί για την ανάκτηση χρήσιμων πληροφοριών. Πράγματι, καταφέραμε να εξάγουμε κοινές αγγελίες, που αρχικά φαινόντουσαν διαφορετικές μεταξύ τους. In this thesis, we dealt with the problem of Named Entity Recognition for job descriptions and implemented two different models, Bi-LSTMs with a CRF layer (Flair framework) and BERT-base. We experimented on a dataset containing descriptions from job advertisements (ads) and their entities were labeled with six different category types: clean title, technical skills, soft skills, language, field of study and education level. In our results, the Flair framework surpassed the results of BERT-base. In addition, we found a way to represent and connect job advertisements using a graph. In the proposed scheme, the job ads and all the possible entities, which can be found in an ad, are represented as nodes. Edges are added between ads and their entities. Using this representation and Node2Vec we extracted node embeddings and performed several queries to examine if the proposed graph scheme can be used to retrieve useful information. Indeed, we were able to extract similar advertisements, which were otherwise isolated.
|
---|