Automatic lecture Transcription in the Greek language
| dc.contributor.advisor | Giannakopoulos, Theodoros | |
| dc.contributor.author | Marogianni, Sofia | |
| dc.contributor.committee | Zavitsanos, Elias | |
| dc.contributor.committee | Chatzopoulos, Serafeim | |
| dc.contributor.department | Τμήμα Πληροφορικής και Τηλεπικοινωνιών | el |
| dc.contributor.faculty | Σχολή Οικονομίας και Τεχνολογίας | el |
| dc.contributor.master | Επιστήμη Δεδομένων | el |
| dc.date.accessioned | 2025-05-21T11:32:47Z | |
| dc.date.available | 2025-05-21T11:32:47Z | |
| dc.date.issued | 2025-04-24 | |
| dc.description | Μ.Δ.Ε. 135 | el |
| dc.description.abstract | This thesis focuses on Automatic Speech Recognition (ASR) models applied to Greek-language AI lectures that incorporate technical terminology primarily derived from English. Initially, existing ASR models were evaluated based on their transcription accuracy and error rates. Subsequently, additional data were collected, an existing model was retrained, and new audio samples were analyzed. A key motivation behind this work is to support individuals with hearing impairments, enabling them to attend and comprehend AI lectures through accurate transcriptions. Within this context, the thesis also explores the feasibility of integrating lip-reading capabilities with transcription systems. Given the cognitive challenge of simultaneously reading subtitles and interpreting a speaker's lip movements, it was particularly interesting to examine whether such a combination is practical and how the two modes can complement each other. Data for this study were gathered through custom-designed surveys and targeted field research. The ultimate goal is to develop or enhance an ASR model tailored to the needs of hearing-impaired individuals, improving their ability to follow academic lectures effectively. | el |
| dc.description.abstracttranslated | Η παρούσα διπλωματική εργασία επικεντρώνεται σε μοντέλα Αυτόματης Αναγνώρισης Ομιλίας (ASR), τα οποία εφαρμόζονται σε διαλέξεις τεχνητής νοημοσύνης στην ελληνική γλώσσα, με χρήση τεχνικής ορολογίας προερχόμενης κυρίως από την αγγλική. Αρχικά, αξιολογήθηκαν τα υφιστάμενα μοντέλα ASR ως προς την ακρίβεια της απομαγνητοφώνησης και το πλήθος των λαθών που παράγουν. Στη συνέχεια, συλλέχθηκαν επιπλέον δεδομένα, πραγματοποιήθηκε επανεκπαίδευση υπάρχοντος μοντέλου και εξετάστηκαν νέα δείγματα ήχου. Κύριος στόχος της παρούσας μελέτης είναι η υποστήριξη ατόμων με προβλήματα ακοής, προκειμένου να μπορούν να παρακολουθούν και να κατανοούν διαλέξεις τεχνητής νοημοσύνης μέσω αξιόπιστης απομαγνητοφώνησης. Στο πλαίσιο αυτό, διερευνήθηκε επίσης η δυνατότητα συνδυασμού της απομαγνητοφώνησης με τεχνολογίες ανάγνωσης χειλιών. Λόγω της γνωστικής δυσκολίας που παρουσιάζει η ταυτόχρονη παρακολούθηση υποτίτλων και χειλιών του ομιλητή, κρίθηκε ιδιαίτερα ενδιαφέρον να εξεταστεί εάν και κατά πόσο είναι εφικτή η συνδυασμένη χρήση των δύο αυτών μεθόδων. Τα δεδομένα της έρευνας συγκεντρώθηκαν μέσω ειδικά σχεδιασμένων ερωτηματολογίων και επιτόπιας έρευνας. Τελικός στόχος είναι η ανάπτυξη ή βελτίωση ενός μοντέλου ASR προσαρμοσμένου στις ανάγκες των ατόμων με προβλήματα ακοής, ώστε να διευκολύνεται η αποτελεσματική παρακολούθηση ακαδημαϊκών διαλέξεων. | el |
| dc.format.extent | 66 | el |
| dc.identifier.uri | https://amitos.library.uop.gr/xmlui/handle/123456789/8860 | |
| dc.language.iso | en | el |
| dc.publisher | Πανεπιστήμιο Πελοποννήσου | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject | Artificial Intelligence | el |
| dc.subject | Automatic Speech Recognition | el |
| dc.subject | Greek language | el |
| dc.subject | Metadata | el |
| dc.subject | Αυτόματη Αναγνώριση Ομιλίας | el |
| dc.subject | Ελληνική γλώσσα | el |
| dc.subject | Μεταδεδομένα | el |
| dc.subject | Τεχνητή νοημοσύνη | el |
| dc.subject.keyword | Automatic Speech Recognition (ASR) | el |
| dc.subject.keyword | Word Error Rate (WER) | el |
| dc.subject.keyword | Transformers | el |
| dc.subject.keyword | Sign Language | el |
| dc.subject.keyword | AI | el |
| dc.subject.keyword | Whisper | el |
| dc.subject.keyword | Lip Reading | el |
| dc.title | Automatic lecture Transcription in the Greek language | el |
| dc.type | Μεταπτυχιακή διπλωματική εργασία | el |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Marogianni_2022202204010.pdf
- Size:
- 2.36 MB
- Format:
- Adobe Portable Document Format
- Description:
- Μεταπτυχιακή Διπλωματική Εργασία
License bundle
1 - 1 of 1
Loading...
- Name:
- license.txt
- Size:
- 933 B
- Format:
- Item-specific license agreed upon to submission
- Description:
