Visual Art Generation for Music

dc.contributor.advisorΓιαννακόπουλος, Θεόδωρος
dc.contributor.authorΠαπαδόπουλος, Νικόλαςel
dc.contributor.committeeΠλατής, Νίκος
dc.contributor.committeeΖαβιτσάνος, Ηλίας
dc.contributor.committeeΓιαννακόπουλος, Θεόδωρος
dc.contributor.departmentΤμήμα Πληροφορικής και Τηλεπικοινωνιώνel
dc.contributor.facultyΣχολή Οικονομίας και Τεχνολογίαςel
dc.contributor.masterΕπιστήμη Δεδομένωνel
dc.date.accessioned2024-10-01T06:22:02Z
dc.date.available2024-10-01T06:22:02Z
dc.date.issued2024-09-28
dc.descriptionΜ.Δ.Ε. 112el
dc.description.abstractThis thesis explores the potential use of Generative AI for visual art generation in music, introducing a tool named Deforum Music Visualizer. This tool enables the automatic creation of visual art from music and is built using Deforum Stable Diffusion, an open source, generative text-to-video diffusion framework. To incorporate both high- and low-level musical elements, it integrates extensive Music Information Retrieval (MIR) data into music informed settings, along with conditional generation based on the song’s album cover. A survey of 45 participants (balanced female/male ratio, ages 19–59) was conducted to evaluate the tool’s effectiveness. Regardless of the participants’ music background, the tool produced baseline results in the fully automated process, scoring 3.0 ± 1.06 for Mean Enjoyment and 2.93 ± 1.20 Mean ISA (incorporation of the song’s atmosphere) on the Likert scale (1-5). User-curated prompts provided a statistically significant improvement in the performace in both Mean Enjoyment (3.63 ± 1.03) and Mean ISA (3.74 ± 1.06). The github repository of the project is available here: https://github.com/nickpadd/DeforumMusicVisualizer.el
dc.description.abstracttranslatedH παρούσα εργασία διερευνά τη χρήση της Παραγωγικής Τεχνητής Νοημοσύνης (Generative AI ), στη δημιουργία οπτικής τέχνης για τη μουσική, παρουσιάζοντας ένα εργαλείο οπτικοποίησης μουσικής, με όνομα Deforum Music Visualizer . Το εργαλείο αυτό αυτοματοποιεί τη δημιουργία οπτικής τέχνης από μουσική και έχει κατασκευαστεί χρησιμοποιώντας το Deforum Stable Diffusion, ένα εγχείρημα ανοικτού κώδικα, για παραγωγή μέσω διάχυσης, βίντεο από κείμενο (text-to-video diffusion). Για την ενσωμάτωση της μουσικής πληροφορίας, τόσο υψηλού όσο και χαμηλού επιπέδου, αξιοποιεί εκτεταμένα δεδομένα Ανάκτησης Μουσικής Πληροφορίας (Music Information Retrieval ), διαμορφώνοντας τις ρυθμίσεις του μοντέλου με βάση την μουσική πληροφορία. Παράλληλα η παραγωγή μέσω διάχυσης, λαμβάνει χώρα εξαρτώμενη από το εξώφυλλο του άλμπουμ του τραγουδιού. Πραγματοποιήθηκε έρευνα με 45 συμμετέχοντες (ισορροπημένη αναλογία γυναικών/ανδρών, ηλικίας 19-59 ετών) για να αξιολογηθεί η αποτελεσματικότητα του εργαλείου. Ανεξάρτητα από το μουσικό υπόβαθρο των συμμετεχόντων, τα αποτελέσματα έδειξαν ότι το προτεινόμενο εργαλείο είναι σε θέση να παράγει αποτελέσματα που μπορούν να θεωρηθούν σημεία αφετηρίας, οσον αφορά την πλήρως αυτοματοποιημένη διαδικασία, λαμβάνοντας βαθμολογία 3.00 ± 1.06 στην μέση Ικανοποίηση και 2.93 ± 1.20 μέσο ISA (δυνατότητα μιας οπτικοποίησης να ενσωματώνει την ατμόσφαιρα ενός τραγουδιού) στην κλίμακα Likert (1-5). Στην περίπτωση κατα την οποία τα prompts ήταν προσαρμοσμένα από τον χρήστη, υπήρξε στατιστικά σημαντική ενίσχυση της απόδοσης του εργαλείου τόσο στην μέση Ικανοποίηση (3.63 ± 1.03) όσο και στο ISA (3.74 ± 1.06). Το αποθετήριο κώδικα για την παρούσα εργασία είναι διαθέσιμο στο github, στον παρακάτω σύνδεσμο: https://github.com/nickpadd/DeforumMusicVisualizer.el
dc.format.extentσελ. 51el
dc.identifier.urihttps://amitos.library.uop.gr/xmlui/handle/123456789/8292
dc.identifier.urihttp://dx.doi.org/10.26263/amitos-1794
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/gr/*
dc.subjectΟπτική αντίληψηΕλληνικά
dc.subjectΜουσικήΕλληνικά
dc.subjectVisual perceptionEnglish
dc.subjectMusicEnglish
dc.subjectVisualizationEnglish
dc.subjectComputer graphicsEnglish
dc.subjectΗλεκτρονικοί υπολογιστές -- ΓραφικάΕλληνικά
dc.subject.keywordMusic Visualizationel
dc.subject.keywordGenerative AIel
dc.subject.keywordMultimodalel
dc.subject.keywordVisual Art Generationel
dc.subject.keywordVideo Generationel
dc.titleVisual Art Generation for Musicel
dc.title.alternativeΠαραγωγή Οπτικής Τέχνης για Μουσικήel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Papadopoulos_2022202204025.pdf
Size:
5.32 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
933 B
Format:
Item-specific license agreed upon to submission
Description: