Automatic lecture Transcription in the Greek language

Marogianni, Sofia

Automatic lecture Transcription in the Greek language

dc.contributor.advisor	Giannakopoulos, Theodoros
dc.contributor.author	Marogianni, Sofia
dc.contributor.committee	Zavitsanos, Elias
dc.contributor.committee	Chatzopoulos, Serafeim
dc.contributor.department	Τμήμα Πληροφορικής και Τηλεπικοινωνιών	el
dc.contributor.faculty	Σχολή Οικονομίας και Τεχνολογίας	el
dc.contributor.master	Επιστήμη Δεδομένων	el
dc.date.accessioned	2025-05-21T11:32:47Z
dc.date.available	2025-05-21T11:32:47Z
dc.date.issued	2025-04-24
dc.description	Μ.Δ.Ε. 135	el
dc.description.abstract	This thesis focuses on Automatic Speech Recognition (ASR) models applied to Greek-language AI lectures that incorporate technical terminology primarily derived from English. Initially, existing ASR models were evaluated based on their transcription accuracy and error rates. Subsequently, additional data were collected, an existing model was retrained, and new audio samples were analyzed. A key motivation behind this work is to support individuals with hearing impairments, enabling them to attend and comprehend AI lectures through accurate transcriptions. Within this context, the thesis also explores the feasibility of integrating lip-reading capabilities with transcription systems. Given the cognitive challenge of simultaneously reading subtitles and interpreting a speaker's lip movements, it was particularly interesting to examine whether such a combination is practical and how the two modes can complement each other. Data for this study were gathered through custom-designed surveys and targeted field research. The ultimate goal is to develop or enhance an ASR model tailored to the needs of hearing-impaired individuals, improving their ability to follow academic lectures effectively.	el
dc.description.abstracttranslated	Η παρούσα διπλωματική εργασία επικεντρώνεται σε μοντέλα Αυτόματης Αναγνώρισης Ομιλίας (ASR), τα οποία εφαρμόζονται σε διαλέξεις τεχνητής νοημοσύνης στην ελληνική γλώσσα, με χρήση τεχνικής ορολογίας προερχόμενης κυρίως από την αγγλική. Αρχικά, αξιολογήθηκαν τα υφιστάμενα μοντέλα ASR ως προς την ακρίβεια της απομαγνητοφώνησης και το πλήθος των λαθών που παράγουν. Στη συνέχεια, συλλέχθηκαν επιπλέον δεδομένα, πραγματοποιήθηκε επανεκπαίδευση υπάρχοντος μοντέλου και εξετάστηκαν νέα δείγματα ήχου. Κύριος στόχος της παρούσας μελέτης είναι η υποστήριξη ατόμων με προβλήματα ακοής, προκειμένου να μπορούν να παρακολουθούν και να κατανοούν διαλέξεις τεχνητής νοημοσύνης μέσω αξιόπιστης απομαγνητοφώνησης. Στο πλαίσιο αυτό, διερευνήθηκε επίσης η δυνατότητα συνδυασμού της απομαγνητοφώνησης με τεχνολογίες ανάγνωσης χειλιών. Λόγω της γνωστικής δυσκολίας που παρουσιάζει η ταυτόχρονη παρακολούθηση υποτίτλων και χειλιών του ομιλητή, κρίθηκε ιδιαίτερα ενδιαφέρον να εξεταστεί εάν και κατά πόσο είναι εφικτή η συνδυασμένη χρήση των δύο αυτών μεθόδων. Τα δεδομένα της έρευνας συγκεντρώθηκαν μέσω ειδικά σχεδιασμένων ερωτηματολογίων και επιτόπιας έρευνας. Τελικός στόχος είναι η ανάπτυξη ή βελτίωση ενός μοντέλου ASR προσαρμοσμένου στις ανάγκες των ατόμων με προβλήματα ακοής, ώστε να διευκολύνεται η αποτελεσματική παρακολούθηση ακαδημαϊκών διαλέξεων.	el
dc.format.extent	66	el
dc.identifier.uri	https://amitos.library.uop.gr/xmlui/handle/123456789/8860
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πελοποννήσου	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Artificial Intelligence	el
dc.subject	Automatic Speech Recognition	el
dc.subject	Greek language	el
dc.subject	Metadata	el
dc.subject	Αυτόματη Αναγνώριση Ομιλίας	el
dc.subject	Ελληνική γλώσσα	el
dc.subject	Μεταδεδομένα	el
dc.subject	Τεχνητή νοημοσύνη	el
dc.subject.keyword	Automatic Speech Recognition (ASR)	el
dc.subject.keyword	Word Error Rate (WER)	el
dc.subject.keyword	Transformers	el
dc.subject.keyword	Sign Language	el
dc.subject.keyword	AI	el
dc.subject.keyword	Whisper	el
dc.subject.keyword	Lip Reading	el
dc.title	Automatic lecture Transcription in the Greek language	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Marogianni_2022202204010.pdf
Size:: 2.36 MB
Format:: Adobe Portable Document Format
Description:: Μεταπτυχιακή Διπλωματική Εργασία

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 933 B
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)