Abstract : | Στη σημερινή εποχή, για την αποτελεσματική λειτουργία επιχειρήσεων, πραγματοποιούνται πολλές συναντήσεις μεταξύ εργαζομένων στις εταιρίες καθώς και μεταξύ εταιριών με πελάτες τους. Καθένας από αυτούς πλέον λαμβάνει μέρος σε τεράστιο αριθμό συναντήσεων καθημερινά. Αυτό έχει ως αποτέλεσμα την ανάγκη για ανάπτυξη αυτόματων βοηθών συναντήσεων μέσω της χρήσης τεχνητής νοημοσύνης (ΤΝ). Αυτοί οι αυτόματοι βοηθοί είναι νέα τεχνολογία η οποία ωστόσο βρίσκει πλέον ευρεία εφαρμογή στις εταιρίες. Επιτρέπουν τη γρήγορη μεταφορά γνώσης μέσα σε οργανισμούς, ενώ παράλληλα γλιτώνουν πολύτιμο χρόνο τους εργαζομένους των εταιριών. Ο σκοπός του συγκεκριμένου Capstone ήταν να χτιστεί ένας τέτοιος βοηθός ΤΝ. Κάθε τέτοιος βοηθός ΤΝ είναι ικανός να εκτελεί πολλές λειτουργίες, δύο εκ των οποίων αποτελούν η αυτόματη περίληψη των πρακτικών των συναντήσεων και η ανάλυση συναισθημάτων των ομιλητών. Για τη δημιουργία ενός τέτοιου μοντέλου, ή Βοηθού Συναντήσεων μέσω ΤΝ, το οποίο θα εκτελεί αποτελεσματικά τις λειτουργίες αυτές θα πρέπει να ακολουθηθεί συγκεκριμένη διαδικασία. Αρχικά, θα πρέπει να αποφασιστεί ο τρόπος εισαγωγής των δεδομένων στο μοντέλο. Η εισαγωγή των δεδομένων θα μπορεί να γίνει είτε σε μορφή txt αρχείου είτε σαν κείμενο από πρακτικά των συναντήσεων. Σε συνέχεια, το μοντέλο θα παράγει αυτόματα μια σύντομη επικεφαλίδα της συνάντησης, μια περίληψη της και ανάλυση συναισθημάτων των συμμετεχόντων. Για τη δημιουργία του συγκεκριμένου μοντέλου είναι απαραίτητη η εισαγωγή δύο κύριων λειτουργιών. Της Αυτόματης Περίληψης Κειμένου και της Αυτόματης Ανάλυσης Συναισθημάτων. Υπάρχει ήδη ένας τεράστιος αριθμός εκπαιδευμένων μοντέλων τα οποία εκτελούν αποτελεσματικά τις συγκεκριμένες λειτουργίες. Ωστόσο, για την αποτελεσματικότερη και καλύτερη δυνατή λειτουργία του μοντέλου, διαφορετικά μοντέλα έπρεπε να συγκριθούν μεταξύ τους, οδηγώντας στην επιλογή του καταλληλότερου. Για την Αυτόματη περίληψη, τα μοντέλα συγκρίθηκαν μέσω του ROUGE metric, το οποίο συγκρίνει n-γράμματα και ακολουθίες λέξεων μεταξύ μιας περίληψης που έχει δοθεί σε ένα κείμενο και μιας αυτόματα παραγμένης περίληψης από κάθε μοντέλο. Όσον αφορά την Ανάλυση Συναισθημάτων, χρησιμοποιήθηκαν δύο σύνολα δεδομένων για την εκτίμηση των μοντέλων τα οποία προβλέπουν είτε αρνητικά είτε θετικά συναισθήματα, με τα Accuracy και F1 Score να συγκρίνονται για κάθε μοντέλο σε σύγκριση με ήδη δοσμένα συναισθήματα σε κάθε κείμενο ή παράγραφο. Επισημαίνεται ότι οι Transformers αποτελούν πλέον τελευταίας τεχνολογίας μοντέλα για Επεξεργασία Φυσικής Γλώσσας. Τα μοντέλα αυτά έχουν εκπαιδευτεί σε τεράστιες βάσεις δεδομένων, ενώ χρησιμοποιούν μια νέα έννοια, αυτή της «αυτοπροσοχής» (Self-attention), η οποία επιτρέπει στο μοντέλο να καταλάβει και τη συσχέτιση μεταξύ διαδοχικών στοιχείων τα οποία απέχουν μεταξύ τους, καθιστώντας ευκολότερη και ακριβέστερη την Επεξεργασία Γλώσσας. Όπως αναμενόταν, οι Transformers παράγουν τα καλύτερα αποτελέσματα και στις δύο λειτουργίες. Συγκεκριμένα, τα μοντέλα που επιλέχθηκαν ήταν ένα BERT-based μοντέλο το οποίο έχει εκπαιδευτεί επιπλέον σε δεδομένα από πρακτικά συναντήσεων και το RoBERTa για την πρόβλεψη συναισθημάτων. Έπειτα, χτίστηκε το τελικό μοντέλο με τρόπο ώστε να μπορεί να λαμβάνει και να επεξεργάζεται μέσω των συγκεκριμένων transformers οποιοδήποτε μήκος κειμένου και στη συνέχεια εξετάστηκε η λειτουργία του σε νέα, φρέσκα δεδομένα που προήλθαν από την ιστοσελίδα AMI Corpus η οποία περιέχει ένα μεγάλο αριθμό πρακτικών συναντήσεων. Παρότι η λειτουργία του μοντέλου είναι αποτελεσματική, περιέχει συγκεκριμένους περιορισμούς, οι οποίοι μπορούν να ξεπεραστούν με τη χρήση άλλων μοντέλων transformers για Speech-to-text επεξεργασία επιτρέποντας την εισαγωγή αρχείων ήχου από τις συναντήσεις και μεταφράσεις των περιλήψεων, καθώς και η δημιουργία διεπαφής χρήστη. In the current days, in order for a company to function properly, several meetings are held between company employees for different purposes, such as teams discussing multiple ideas for the company or even between company employees and their clients. Each employee takes part in a large number of meetings while project managers and team leaders need to review too many meetings. Thus, the need of automated meeting assistants has risen. These automated or AI Meeting Assistants are relatively new but so many companies are rapidly deploying these tools. They allow for a quick transfer of knowledge within an organization while saving a massive amount of time for employees and managers. The purpose of this Capstone Project was to build such an Assistant. Among many others, two of the functions that an AI meeting assistant can easily help in are in summarizing meetings -or even note taking- and analyzing the emotions and feelings of participants. These functions open up a way to find insights that would not have been uncovered. To build a model, or an AI Meeting Assistant, that can execute these functions a certain process has to take place. Firstly, the input format that this AI assistant will be able to receive must be decided. The inputs can be either a txt file or plain text of a meeting’s transcripts. The output that the AI model will produce is expected to be a brief headline of the meeting, a summary of that meeting and a sentiment analysis of the meeting’s participants, all automated. To construct that model, two main functions should be implemented. Those functions are automated Text Summarization and Sentiment Analysis. There is a huge variety of models that have been trained on huge data that work great for these functions. However, in order to have the best possible end product, different models should be evaluated on proper datasets and the best ones had to be selected. As far as Text Summarization is concerned, both abstractive and extractive models were evaluated. These models were reviewed by using the Rouge metric, a metric that compares the n-grams or sequence of words that appear in a manually annotated summary of a text versus those that appear in the automated summary given by the model being evaluated. As for the Sentiment Analysis review, two datasets were used, producing positive or negative emotions and measuring the Accuracy and F1 Score that each model yields and comparing them in contrast to manually annotated emotions. It should be noted that Transformers have steadily become a state-of-the-art technology for Natural Language Processing, that consists of pretrained models, trained on enormous datasets, that implement the use of self-attention mechanisms, which help the model to understand the relationship between sequential elements that are far from each other, making NLP tasks easier and more accurate. The inputs interact with each other, so the model decides to which element it should pay more “attention” to, giving bigger meaning to the context of the text. As expected, the transformers that were reviewed produced better results than other pre-trained models for both NLP tasks at hand (Text Summarization and Sentiment Analysis). More specifically, the models that were selected to be used in the end product were a BERT based Text Summarization transformer that was fine-tuned on meeting datasets and the RoBERTa model for Sentiment Analysis. After that, the final model was constructed and processed in order to be able to use those transformers in any text size and the final output was tested on fresh data from meeting transcripts found on the AMI Corpus website, which contains several meeting datasets for NLP task uses. Although this model produces great results there are certain limitations that can be surpassed by taking a few steps forward, such as using Speech-to-Text to extract transcripts from audio files, translating the summaries to other languages and adding a GUI. Most of these tasks can be surpassed by other Transformers that appear to be the future of NLP.
|
---|