Lexical semantic change detection: A supervised approach
| dc.contributor.advisor | Ζαβιτσάνος, Ηλίας | |
| dc.contributor.advisor | Γιαννακόπουλος, Γεώργιος | |
| dc.contributor.author | Τσαρούχας, Νικόλαος-Μάριος | |
| dc.contributor.committee | Γιαννακόπουλος, Γεώργιος | |
| dc.contributor.committee | Ζαβιτσάνος, Ηλίας | |
| dc.contributor.committee | Πλατής, Νικόλαος | |
| dc.contributor.department | Τμήμα Πληροφορικής και Τηλεπικοινωνιών | el |
| dc.contributor.faculty | Σχολή Οικονομίας και Τεχνολογίας | el |
| dc.contributor.master | Επιστήμη Δεδομένων | el |
| dc.date.accessioned | 2025-05-23T07:43:11Z | |
| dc.date.available | 2025-05-23T07:43:11Z | |
| dc.date.issued | 2024-12-12 | |
| dc.description | Μ.Δ.Ε. 140 | el |
| dc.description.abstract | The aim of this thesis address the challenge of detecting lexical semantic change, a task essential for understanding language evolution and its implications in linguistics, history, and artificial intelligence. As part of this work, we propose a novel methodology for creating an annotated dataset specifically designed for lexical semantic change detection. This dataset serves as a critical foundation for our supervised approach, which leverages word embeddings generated from Skip- Gram with Negative Sampling (SGNS) models to identify and quantify semantic shifts across time periods. By combining robust preprocessing techniques, including undersampling to address class imbalances, with a range of machine learning classifiers, we demonstrate that supervised learning can effectively be employed for this task. Our experiments show that supervised models, particularly the Support Vector Machine (SVM) classifier with undersampling, outperform traditional unsupervised methods. The best-performing model achieved an F1-score of 0.7568, surpassing the top results from the SemEval 2020 task1 unsupervised competition. This validates the effectiveness of supervised learning in capturing subtle semantic changes and highlights its potential for addressing similar tasks in the future. In addition, we are planning to explore the integration of contextual embeddings, such as those generated by BERT, into the supervised framework, which holds promise for further enhancing the model’s ability to detect nuanced semantic shifts. This thesis also outlines several promising directions for future research, including advanced feature engineering, hyperparameter optimization, and the adoption of semi-supervised learning techniques to improve performance and scalability. By introducing a novel annotated dataset and demonstrating the efficacy of supervised approaches, this work bridges the gap between supervised and unsupervised methods in lexical semantic change detection. While our results establish a strong foundation, there remains significant room for improvement and further development in this field, paving the way for innovative applications in computational linguistics and beyond. | el |
| dc.description.abstracttranslated | Σκοπός αυτής της διπλωματικής εργασίας είναι να αντιμετωπίσει την πρόκληση της ανίχνευσης λεκτικής σημασιολογικής μεταβολής, ένα καθοριστικό έργο για την κατανόηση της εξέλιξης της γλώσσας και των επιπτώσεών της στη γλωσσολογία, την ιστορία και την τεχνητή νοημοσύνη. Στο πλαίσιο αυτής της εργασίας, προτείνουμε μια νέα μεθοδολογία για τη δημιουργία ενός σχολιασμένου συνόλου δεδομένων που έχει σχεδιαστεί ειδικά για την ανίχνευση σημασιολογικών αλλαγών. Αυτό το σύνολο δεδομένων αποτελεί κρίσιμη βάση για την επιβλεπόμενη προσέγγισή μας, η οποία αξιοποιεί διανύσματα λέξεων (word embeddings) που προέρχονται από μοντέλα Skip-Gram με Αρνητική Δειγματοληψία (SGNS), για τον εντοπισμό και την ποσοτικοποίηση σημασιολογικών μεταβολών σε διαφορετικές χρονικές περιόδους. Συνδυάζοντας ισχυρές τεχνικές προεπεξεργασίας, όπως η υποδειγματοληψία για την αντιμετώπιση της ανισορροπίας μεταξύ τάξεων, με μια σειρά από αλγορίθμους μηχανικής μάθησης, αποδεικνύουμε ότι η επιβλεπόμενη μάθηση μπορεί να εφαρμοστεί αποτελεσματικά σε αυτό το έργο. Τα πειράματά μας δείχνουν ότι τα επιβλεπόμενα μοντέλα, και ειδικότερα ο αλγόριθμος Support Vector Machine (SVM) με υποδειγματοληψία, υπερτερούν σε απόδοση των παραδοσιακών μη επιβλεπόμενων μεθόδων. Το μοντέλο με την καλύτερη επίδοση πέτυχε F1-score ίσο με 0.7568, ξεπερνώντας τα κορυφαία αποτελέσματα του διαγωνισμού SemEval 2020 Task 1 στις μη επιβλεπόμενες προσεγγίσεις. Αυτό επιβεβαιώνει την αποτελεσματικότητα της επιβλεπόμενης μάθησης στην ανίχνευση λεπτών σημασιολογικών αλλαγών και αναδεικνύει τις δυνατότητές της για μελλοντικές εφαρμογές. Επιπλέον, σχεδιάζουμε να εξετάσουμε την ενσωμάτωση συμφραζομενικών διανυσμάτων (contextual embeddings), όπως αυτά που παράγονται από το BERT, στο επιβλεπόμενο πλαίσιο, γεγονός που υπόσχεται περαιτέρω βελτίωση της ικανότητας του μοντέλου να εντοπίζει λεπτές σημασιολογικές μετατοπίσεις. Η εργασία αυτή περιγράφει επίσης αρκετές υποσχόμενες κατευθύνσεις για μελλοντική έρευνα, συμπεριλαμβανομένης της προχωρημένης εξαγωγής χαρακτηριστικών, της βελτιστοποίησης υπερπαραμέτρων και της υιοθέτησης τεχνικών ημι-επιβλεπόμενης μάθησης για τη βελτίωση της απόδοσης και της κλιμάκωσης. Με την εισαγωγή ενός νέου σχολιασμένου συνόλου δεδομένων και την επίδειξη της αποτελεσματικότητας των επιβλεπόμενων προσεγγίσεων, η εργασία αυτή γεφυρώνει το χάσμα μεταξύ επιβλεπόμενων και μη επιβλεπόμενων μεθόδων στην ανίχνευση λεκτικής σημασιολογικής μεταβολής. Παρόλο που τα αποτελέσματά μας θέτουν μια ισχυρή βάση, υπάρχει σημαντικό περιθώριο για βελτίωση και περαιτέρω ανάπτυξη στον τομέα, ανοίγοντας τον δρόμο για καινοτόμες εφαρμογές στην υπολογιστική γλωσσολογία και πέραν αυτής. | el |
| dc.format.extent | 115 | el |
| dc.identifier.uri | https://amitos.library.uop.gr/xmlui/handle/123456789/8865 | |
| dc.language.iso | en | el |
| dc.publisher | Πανεπιστήμιο Πελοποννήσου | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject | Natural language processing (Computer science) | el |
| dc.subject | Artificial Intelligence | el |
| dc.subject | Data sets | el |
| dc.subject | Machine Learning--Classifiers | el |
| dc.subject | Supervised learning (Machine learning) | el |
| dc.subject | Επεξεργασία φυσικής γλώσσας (Πληροφορική) | el |
| dc.subject | Τεχνητή νοημοσύνη | el |
| dc.subject | Σύνολα δεδομένων | el |
| dc.subject | Μηχανική Μάθηση--Ταξινομητές | el |
| dc.subject | Εποπτευόμενη μάθηση (Μηχανική μάθηση) | el |
| dc.subject.keyword | lexical semantic change detection supervised AI SGNS SemEval | el |
| dc.title | Lexical semantic change detection: A supervised approach | el |
| dc.type | Μεταπτυχιακή διπλωματική εργασία | el |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Tsarouchas_Nikolaos_Marios_Lexical_semantic_change_detection.pdf
- Size:
- 1.01 MB
- Format:
- Adobe Portable Document Format
- Description:
License bundle
1 - 1 of 1
Loading...
- Name:
- license.txt
- Size:
- 933 B
- Format:
- Item-specific license agreed upon to submission
- Description:
