Automatic lecture Transcription in the Greek language

dc.contributor.advisorGiannakopoulos, Theodoros
dc.contributor.authorMarogianni, Sofia
dc.contributor.committeeZavitsanos, Elias
dc.contributor.committeeChatzopoulos, Serafeim
dc.contributor.departmentΤμήμα Πληροφορικής και Τηλεπικοινωνιώνel
dc.contributor.facultyΣχολή Οικονομίας και Τεχνολογίαςel
dc.contributor.masterΕπιστήμη Δεδομένωνel
dc.date.accessioned2025-05-21T11:32:47Z
dc.date.available2025-05-21T11:32:47Z
dc.date.issued2025-04-24
dc.descriptionΜ.Δ.Ε. 135el
dc.description.abstractThis thesis focuses on Automatic Speech Recognition (ASR) models applied to Greek-language AI lectures that incorporate technical terminology primarily derived from English. Initially, existing ASR models were evaluated based on their transcription accuracy and error rates. Subsequently, additional data were collected, an existing model was retrained, and new audio samples were analyzed. A key motivation behind this work is to support individuals with hearing impairments, enabling them to attend and comprehend AI lectures through accurate transcriptions. Within this context, the thesis also explores the feasibility of integrating lip-reading capabilities with transcription systems. Given the cognitive challenge of simultaneously reading subtitles and interpreting a speaker's lip movements, it was particularly interesting to examine whether such a combination is practical and how the two modes can complement each other. Data for this study were gathered through custom-designed surveys and targeted field research. The ultimate goal is to develop or enhance an ASR model tailored to the needs of hearing-impaired individuals, improving their ability to follow academic lectures effectively.el
dc.description.abstracttranslatedΗ παρούσα διπλωματική εργασία επικεντρώνεται σε μοντέλα Αυτόματης Αναγνώρισης Ομιλίας (ASR), τα οποία εφαρμόζονται σε διαλέξεις τεχνητής νοημοσύνης στην ελληνική γλώσσα, με χρήση τεχνικής ορολογίας προερχόμενης κυρίως από την αγγλική. Αρχικά, αξιολογήθηκαν τα υφιστάμενα μοντέλα ASR ως προς την ακρίβεια της απομαγνητοφώνησης και το πλήθος των λαθών που παράγουν. Στη συνέχεια, συλλέχθηκαν επιπλέον δεδομένα, πραγματοποιήθηκε επανεκπαίδευση υπάρχοντος μοντέλου και εξετάστηκαν νέα δείγματα ήχου. Κύριος στόχος της παρούσας μελέτης είναι η υποστήριξη ατόμων με προβλήματα ακοής, προκειμένου να μπορούν να παρακολουθούν και να κατανοούν διαλέξεις τεχνητής νοημοσύνης μέσω αξιόπιστης απομαγνητοφώνησης. Στο πλαίσιο αυτό, διερευνήθηκε επίσης η δυνατότητα συνδυασμού της απομαγνητοφώνησης με τεχνολογίες ανάγνωσης χειλιών. Λόγω της γνωστικής δυσκολίας που παρουσιάζει η ταυτόχρονη παρακολούθηση υποτίτλων και χειλιών του ομιλητή, κρίθηκε ιδιαίτερα ενδιαφέρον να εξεταστεί εάν και κατά πόσο είναι εφικτή η συνδυασμένη χρήση των δύο αυτών μεθόδων. Τα δεδομένα της έρευνας συγκεντρώθηκαν μέσω ειδικά σχεδιασμένων ερωτηματολογίων και επιτόπιας έρευνας. Τελικός στόχος είναι η ανάπτυξη ή βελτίωση ενός μοντέλου ASR προσαρμοσμένου στις ανάγκες των ατόμων με προβλήματα ακοής, ώστε να διευκολύνεται η αποτελεσματική παρακολούθηση ακαδημαϊκών διαλέξεων.el
dc.format.extent66el
dc.identifier.urihttps://amitos.library.uop.gr/xmlui/handle/123456789/8860
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.subjectArtificial Intelligenceel
dc.subjectAutomatic Speech Recognitionel
dc.subjectGreek languageel
dc.subjectMetadatael
dc.subjectΑυτόματη Αναγνώριση Ομιλίαςel
dc.subjectΕλληνική γλώσσαel
dc.subjectΜεταδεδομέναel
dc.subjectΤεχνητή νοημοσύνηel
dc.subject.keywordAutomatic Speech Recognition (ASR)el
dc.subject.keywordWord Error Rate (WER)el
dc.subject.keywordTransformersel
dc.subject.keywordSign Languageel
dc.subject.keywordAIel
dc.subject.keywordWhisperel
dc.subject.keywordLip Readingel
dc.titleAutomatic lecture Transcription in the Greek languageel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Marogianni_2022202204010.pdf
Size:
2.36 MB
Format:
Adobe Portable Document Format
Description:
Μεταπτυχιακή Διπλωματική Εργασία

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
933 B
Format:
Item-specific license agreed upon to submission
Description: