AI-driven rehabilitation indicators for non-performing credit
| dc.contributor.advisor | Ζαβιτσάνος, Ηλίας | |
| dc.contributor.author | Κιντή, Αικατερίνη | |
| dc.contributor.committee | Vasilakos, Konstantinos | |
| dc.contributor.committee | Akasiadis, Charilaos | |
| dc.contributor.committee | Zavitsanos, Elias | |
| dc.contributor.department | Τμήμα Πληροφορικής και Τηλεπικοινωνιών | el |
| dc.contributor.faculty | Σχολή Οικονομίας και Τεχνολογίας | el |
| dc.contributor.master | Επιστήμη Δεδομένων | el |
| dc.date.accessioned | 2025-01-29T09:16:05Z | |
| dc.date.available | 2025-01-29T09:16:05Z | |
| dc.date.issued | 2025-01 | |
| dc.description.abstract | The banking sector and lending organizations are undergoing significant transformation, driven by advancements in Machine Learning (ML). A pivotal application of ML in this domain is loan default prediction, which is essential for developing robust credit scoring systems and maintaining financial stability for banks and financial institutions. This study focuses on analyzing account- and customer-related attributes that contribute to non-performing loans (NPLs), via SHAP and LIME, with the goal of uncovering insights that can inform effective and mutually beneficial resolution strategies. Using a proprietary dataset comprising 326 attributes, the study addresses the challenge of imbalanced classification, where the dataset is heavily skewed towards performing loans, often hindering model performance. To address this, four experimental scenarios were explored: (a) a baseline model trained on the original dataset, (b) an artificially balanced dataset with equal class representation, (c) an approach combining oversampling via Synthetic Minority Oversampling Technique (SMOTE) and Undersampling with RandomUnderSampler, and (d) the application of focal and weighted loss functions to XGBoost model. Among all scenarios, the combination of SMOTE and Random UnderSampler proved most effective. The Random Forest model emerged as the top performer, achieving a ROC-AUC score of 0.7402 and a Precision- Recall AUC of 0.0126. This study emphasizes the critical role of tailored preprocessing and evaluation methodologies in navigating the complexities of imbalanced data. It demonstrates the potential for incorporating preprocessing techniques to handle the redistribution of data across the 2 classes, including sampling strategies and loss function modifications, in order to highlight those attributes that demonstrate the predictability of loan defaults. | el |
| dc.description.abstracttranslated | Ο τραπεζιϰός τομέας ϰαι οι δανειοδοτιϰοί οργανισμοί υφίστανται σημαντιϰό μετασχη- ματισμό, ο οποίος ϰαϑοδηγείται από τις εξελίξεις στη μηχανιϰή μάϑηση (ML). Μια ϰαίρια εφαρμογή της ML σε αυτόν τον τομέα είναι η πρόβλεψη της αϑέτησης των δανείων, η οποία είναι απαραίτητη για την ανάπτυξη ισχυρών συστημάτων πιστωτιϰής βαϑμολόγησης ϰαι τη διατήρηση της οιϰονομιϰής σταϑερότητας για τις τράπεζες ϰαι τα χρηματοπιστω- τιϰά ιδρύματα. Η παρούσα μελέτη επιϰεντρώνεται στην ανάλυση χαραϰτηριστιϰών που σχετίζονται με λογαριασμούς ϰαι πελάτες ϰαι συμβάλλουν στα μη εξυπηρετούμενα δάνεια (NPLs), με στόχο την αποϰάλυψη πληροφοριών μέσω SHAP ϰαι LIME για αποτελεσματιϰές ϰαι αμοιβαία επωφελείς στρατηγιϰές επίλυσης. Χρησιμοποιώντας ένα σύνολο δεδομένων που περιλαμβάνει 326 χαραϰτηριστιϰά, η με- λέτη αντιμετωπίζει την πρόϰληση της ανισομερούς ϰατανομής δεδομένων, όπου το σύνολο δεδομένων αφορά τα εξυπηρετούμενα δάνεια, γεγονός που συχνά εμποδίζει την απόδοση του αλγόριϑμου. Για να αντιμετωπιστεί αυτό, έτρεξαν τέσσερα πειραματιϰά σενάρια: (α) ένα βασιϰό μοντέλο που εϰπαιδεύτηϰε στο αρχιϰό σύνολο των δεδομένων, (β) ένα τεχνητά ισορροπημένο σύνολο δεδομένων με ίση ϰατανομή δεδομένων ϰαι στις δύο ϰλάσεις, (γ) μια προσέγγιση που συνδυάζει την τεχνιϰή Synthetic Minority Oversampling Technique (SMOTE) ϰαι την RandomUnderSampler, ϰαι (δ) η εφαρμογή Focal ϰαι Weighted Loss στο μοντέλο XGBoost. Για την αξιολόγηση της απόδοσης του μοντέλου χρησιμοποιήϑηϰαν μετριϰές αξιολόγη- σης προσαρμοσμένες σε δεδομένα με μεγάλη αναϰατανομή των ϰλάσεων. Μεταξύ όλων των σεναρίων, ο συνδυασμός SMOTE ϰαι Random UnderSampler αποδείχϑηϰε ο πιο αποτελεσμα- τιϰός. Το μοντέλο Random Forest αναδείχϑηϰε ως ο αλγόριϑμος με τις ϰαλύτερες επιδόσεις, επιτυγχάνοντας βαϑμολογία ROC-AUC 0.7402 ϰαι PRECISION-RECALL AUC 0.0126. Αυτή η μελέτη υπογραμμίζει τον ϰρίσιμο ρόλο των προσαρμοσμένων μεϑοδολογιών προ- επεξεργασίας ϰαι αξιολόγησης στην αντιμετώπιση μεγάλων αναϰατανομών στις ϰλάσεις. Καταδειϰνύει τις δυνατότητες ενσωμάτωσης τεχνιϰών προεπεξεργασίας για τον χειρισμό της αναϰατανομής των δεδομένων στις δύο ϰλάσεις, συμπεριλαμβανομένων των sampling strategies ϰαι loss function modifications, με στόχο την ανάδειξη των χαραϰτηριστιϰών εϰείνων που ϰαταδειϰνύουν την πρόβλεψη αϑέτησης δανείων. | el |
| dc.format.extent | 67 | el |
| dc.identifier.uri | https://amitos.library.uop.gr/xmlui/handle/123456789/8576 | |
| dc.language.iso | en | el |
| dc.publisher | Πανεπιστήμιο Πελοποννήσου | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject | Artificial Intelligence | el |
| dc.subject | Non-performing loans | el |
| dc.subject | Financial rehabilitation | el |
| dc.subject | Risk management | el |
| dc.subject.keyword | Non-performing loans, highly imbalanced dataset, Machine Learning,SMOTE, Random Under Sampler, Focal Loss, Weighted Loss, Random Forest, XGBoost | el |
| dc.title | AI-driven rehabilitation indicators for non-performing credit | el |
| dc.title.alternative | Δείκτες αποκατάστασης μη εξυπηρετούμενων δανείων με τη βοήθεια της τεχνητής νοημοσύνης | el |
| dc.type | Μεταπτυχιακή διπλωματική εργασία | el |
