Lexical semantic change detection: A supervised approach

Τσαρούχας, Νικόλαος-Μάριος

Lexical semantic change detection: A supervised approach

dc.contributor.advisor	Ζαβιτσάνος, Ηλίας
dc.contributor.advisor	Γιαννακόπουλος, Γεώργιος
dc.contributor.author	Τσαρούχας, Νικόλαος-Μάριος
dc.contributor.committee	Γιαννακόπουλος, Γεώργιος
dc.contributor.committee	Ζαβιτσάνος, Ηλίας
dc.contributor.committee	Πλατής, Νικόλαος
dc.contributor.department	Τμήμα Πληροφορικής και Τηλεπικοινωνιών	el
dc.contributor.faculty	Σχολή Οικονομίας και Τεχνολογίας	el
dc.contributor.master	Επιστήμη Δεδομένων	el
dc.date.accessioned	2025-05-23T07:43:11Z
dc.date.available	2025-05-23T07:43:11Z
dc.date.issued	2024-12-12
dc.description	Μ.Δ.Ε. 140	el
dc.description.abstract	The aim of this thesis address the challenge of detecting lexical semantic change, a task essential for understanding language evolution and its implications in linguistics, history, and artificial intelligence. As part of this work, we propose a novel methodology for creating an annotated dataset specifically designed for lexical semantic change detection. This dataset serves as a critical foundation for our supervised approach, which leverages word embeddings generated from Skip- Gram with Negative Sampling (SGNS) models to identify and quantify semantic shifts across time periods. By combining robust preprocessing techniques, including undersampling to address class imbalances, with a range of machine learning classifiers, we demonstrate that supervised learning can effectively be employed for this task. Our experiments show that supervised models, particularly the Support Vector Machine (SVM) classifier with undersampling, outperform traditional unsupervised methods. The best-performing model achieved an F1-score of 0.7568, surpassing the top results from the SemEval 2020 task1 unsupervised competition. This validates the effectiveness of supervised learning in capturing subtle semantic changes and highlights its potential for addressing similar tasks in the future. In addition, we are planning to explore the integration of contextual embeddings, such as those generated by BERT, into the supervised framework, which holds promise for further enhancing the model’s ability to detect nuanced semantic shifts. This thesis also outlines several promising directions for future research, including advanced feature engineering, hyperparameter optimization, and the adoption of semi-supervised learning techniques to improve performance and scalability. By introducing a novel annotated dataset and demonstrating the efficacy of supervised approaches, this work bridges the gap between supervised and unsupervised methods in lexical semantic change detection. While our results establish a strong foundation, there remains significant room for improvement and further development in this field, paving the way for innovative applications in computational linguistics and beyond.	el
dc.description.abstracttranslated	Σκοπός αυτής της διπλωματικής εργασίας είναι να αντιμετωπίσει την πρόκληση της ανίχνευσης λεκτικής σημασιολογικής μεταβολής, ένα καθοριστικό έργο για την κατανόηση της εξέλιξης της γλώσσας και των επιπτώσεών της στη γλωσσολογία, την ιστορία και την τεχνητή νοημοσύνη. Στο πλαίσιο αυτής της εργασίας, προτείνουμε μια νέα μεθοδολογία για τη δημιουργία ενός σχολιασμένου συνόλου δεδομένων που έχει σχεδιαστεί ειδικά για την ανίχνευση σημασιολογικών αλλαγών. Αυτό το σύνολο δεδομένων αποτελεί κρίσιμη βάση για την επιβλεπόμενη προσέγγισή μας, η οποία αξιοποιεί διανύσματα λέξεων (word embeddings) που προέρχονται από μοντέλα Skip-Gram με Αρνητική Δειγματοληψία (SGNS), για τον εντοπισμό και την ποσοτικοποίηση σημασιολογικών μεταβολών σε διαφορετικές χρονικές περιόδους. Συνδυάζοντας ισχυρές τεχνικές προεπεξεργασίας, όπως η υποδειγματοληψία για την αντιμετώπιση της ανισορροπίας μεταξύ τάξεων, με μια σειρά από αλγορίθμους μηχανικής μάθησης, αποδεικνύουμε ότι η επιβλεπόμενη μάθηση μπορεί να εφαρμοστεί αποτελεσματικά σε αυτό το έργο. Τα πειράματά μας δείχνουν ότι τα επιβλεπόμενα μοντέλα, και ειδικότερα ο αλγόριθμος Support Vector Machine (SVM) με υποδειγματοληψία, υπερτερούν σε απόδοση των παραδοσιακών μη επιβλεπόμενων μεθόδων. Το μοντέλο με την καλύτερη επίδοση πέτυχε F1-score ίσο με 0.7568, ξεπερνώντας τα κορυφαία αποτελέσματα του διαγωνισμού SemEval 2020 Task 1 στις μη επιβλεπόμενες προσεγγίσεις. Αυτό επιβεβαιώνει την αποτελεσματικότητα της επιβλεπόμενης μάθησης στην ανίχνευση λεπτών σημασιολογικών αλλαγών και αναδεικνύει τις δυνατότητές της για μελλοντικές εφαρμογές. Επιπλέον, σχεδιάζουμε να εξετάσουμε την ενσωμάτωση συμφραζομενικών διανυσμάτων (contextual embeddings), όπως αυτά που παράγονται από το BERT, στο επιβλεπόμενο πλαίσιο, γεγονός που υπόσχεται περαιτέρω βελτίωση της ικανότητας του μοντέλου να εντοπίζει λεπτές σημασιολογικές μετατοπίσεις. Η εργασία αυτή περιγράφει επίσης αρκετές υποσχόμενες κατευθύνσεις για μελλοντική έρευνα, συμπεριλαμβανομένης της προχωρημένης εξαγωγής χαρακτηριστικών, της βελτιστοποίησης υπερπαραμέτρων και της υιοθέτησης τεχνικών ημι-επιβλεπόμενης μάθησης για τη βελτίωση της απόδοσης και της κλιμάκωσης. Με την εισαγωγή ενός νέου σχολιασμένου συνόλου δεδομένων και την επίδειξη της αποτελεσματικότητας των επιβλεπόμενων προσεγγίσεων, η εργασία αυτή γεφυρώνει το χάσμα μεταξύ επιβλεπόμενων και μη επιβλεπόμενων μεθόδων στην ανίχνευση λεκτικής σημασιολογικής μεταβολής. Παρόλο που τα αποτελέσματά μας θέτουν μια ισχυρή βάση, υπάρχει σημαντικό περιθώριο για βελτίωση και περαιτέρω ανάπτυξη στον τομέα, ανοίγοντας τον δρόμο για καινοτόμες εφαρμογές στην υπολογιστική γλωσσολογία και πέραν αυτής.	el
dc.format.extent	115	el
dc.identifier.uri	https://amitos.library.uop.gr/xmlui/handle/123456789/8865
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πελοποννήσου	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Natural language processing (Computer science)	el
dc.subject	Artificial Intelligence	el
dc.subject	Data sets	el
dc.subject	Machine Learning--Classifiers	el
dc.subject	Supervised learning (Machine learning)	el
dc.subject	Επεξεργασία φυσικής γλώσσας (Πληροφορική)	el
dc.subject	Τεχνητή νοημοσύνη	el
dc.subject	Σύνολα δεδομένων	el
dc.subject	Μηχανική Μάθηση--Ταξινομητές	el
dc.subject	Εποπτευόμενη μάθηση (Μηχανική μάθηση)	el
dc.subject.keyword	lexical semantic change detection supervised AI SGNS SemEval	el
dc.title	Lexical semantic change detection: A supervised approach	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Tsarouchas_Nikolaos_Marios_Lexical_semantic_change_detection.pdf
Size:: 1.01 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 933 B
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)