AI-driven rehabilitation indicators for non-performing credit

dc.contributor.advisorΖαβιτσάνος, Ηλίας
dc.contributor.authorΚιντή, Αικατερίνη
dc.contributor.committeeVasilakos, Konstantinos
dc.contributor.committeeAkasiadis, Charilaos
dc.contributor.committeeZavitsanos, Elias
dc.contributor.departmentΤμήμα Πληροφορικής και Τηλεπικοινωνιώνel
dc.contributor.facultyΣχολή Οικονομίας και Τεχνολογίαςel
dc.contributor.masterΕπιστήμη Δεδομένωνel
dc.date.accessioned2025-01-29T09:16:05Z
dc.date.available2025-01-29T09:16:05Z
dc.date.issued2025-01
dc.description.abstractThe banking sector and lending organizations are undergoing significant transformation, driven by advancements in Machine Learning (ML). A pivotal application of ML in this domain is loan default prediction, which is essential for developing robust credit scoring systems and maintaining financial stability for banks and financial institutions. This study focuses on analyzing account- and customer-related attributes that contribute to non-performing loans (NPLs), via SHAP and LIME, with the goal of uncovering insights that can inform effective and mutually beneficial resolution strategies. Using a proprietary dataset comprising 326 attributes, the study addresses the challenge of imbalanced classification, where the dataset is heavily skewed towards performing loans, often hindering model performance. To address this, four experimental scenarios were explored: (a) a baseline model trained on the original dataset, (b) an artificially balanced dataset with equal class representation, (c) an approach combining oversampling via Synthetic Minority Oversampling Technique (SMOTE) and Undersampling with RandomUnderSampler, and (d) the application of focal and weighted loss functions to XGBoost model. Among all scenarios, the combination of SMOTE and Random UnderSampler proved most effective. The Random Forest model emerged as the top performer, achieving a ROC-AUC score of 0.7402 and a Precision- Recall AUC of 0.0126. This study emphasizes the critical role of tailored preprocessing and evaluation methodologies in navigating the complexities of imbalanced data. It demonstrates the potential for incorporating preprocessing techniques to handle the redistribution of data across the 2 classes, including sampling strategies and loss function modifications, in order to highlight those attributes that demonstrate the predictability of loan defaults.el
dc.description.abstracttranslatedΟ τραπεζιϰός τομέας ϰαι οι δανειοδοτιϰοί οργανισμοί υφίστανται σημαντιϰό μετασχη- ματισμό, ο οποίος ϰαϑοδηγείται από τις εξελίξεις στη μηχανιϰή μάϑηση (ML). Μια ϰαίρια εφαρμογή της ML σε αυτόν τον τομέα είναι η πρόβλεψη της αϑέτησης των δανείων, η οποία είναι απαραίτητη για την ανάπτυξη ισχυρών συστημάτων πιστωτιϰής βαϑμολόγησης ϰαι τη διατήρηση της οιϰονομιϰής σταϑερότητας για τις τράπεζες ϰαι τα χρηματοπιστω- τιϰά ιδρύματα. Η παρούσα μελέτη επιϰεντρώνεται στην ανάλυση χαραϰτηριστιϰών που σχετίζονται με λογαριασμούς ϰαι πελάτες ϰαι συμβάλλουν στα μη εξυπηρετούμενα δάνεια (NPLs), με στόχο την αποϰάλυψη πληροφοριών μέσω SHAP ϰαι LIME για αποτελεσματιϰές ϰαι αμοιβαία επωφελείς στρατηγιϰές επίλυσης. Χρησιμοποιώντας ένα σύνολο δεδομένων που περιλαμβάνει 326 χαραϰτηριστιϰά, η με- λέτη αντιμετωπίζει την πρόϰληση της ανισομερούς ϰατανομής δεδομένων, όπου το σύνολο δεδομένων αφορά τα εξυπηρετούμενα δάνεια, γεγονός που συχνά εμποδίζει την απόδοση του αλγόριϑμου. Για να αντιμετωπιστεί αυτό, έτρεξαν τέσσερα πειραματιϰά σενάρια: (α) ένα βασιϰό μοντέλο που εϰπαιδεύτηϰε στο αρχιϰό σύνολο των δεδομένων, (β) ένα τεχνητά ισορροπημένο σύνολο δεδομένων με ίση ϰατανομή δεδομένων ϰαι στις δύο ϰλάσεις, (γ) μια προσέγγιση που συνδυάζει την τεχνιϰή Synthetic Minority Oversampling Technique (SMOTE) ϰαι την RandomUnderSampler, ϰαι (δ) η εφαρμογή Focal ϰαι Weighted Loss στο μοντέλο XGBoost. Για την αξιολόγηση της απόδοσης του μοντέλου χρησιμοποιήϑηϰαν μετριϰές αξιολόγη- σης προσαρμοσμένες σε δεδομένα με μεγάλη αναϰατανομή των ϰλάσεων. Μεταξύ όλων των σεναρίων, ο συνδυασμός SMOTE ϰαι Random UnderSampler αποδείχϑηϰε ο πιο αποτελεσμα- τιϰός. Το μοντέλο Random Forest αναδείχϑηϰε ως ο αλγόριϑμος με τις ϰαλύτερες επιδόσεις, επιτυγχάνοντας βαϑμολογία ROC-AUC 0.7402 ϰαι PRECISION-RECALL AUC 0.0126. Αυτή η μελέτη υπογραμμίζει τον ϰρίσιμο ρόλο των προσαρμοσμένων μεϑοδολογιών προ- επεξεργασίας ϰαι αξιολόγησης στην αντιμετώπιση μεγάλων αναϰατανομών στις ϰλάσεις. Καταδειϰνύει τις δυνατότητες ενσωμάτωσης τεχνιϰών προεπεξεργασίας για τον χειρισμό της αναϰατανομής των δεδομένων στις δύο ϰλάσεις, συμπεριλαμβανομένων των sampling strategies ϰαι loss function modifications, με στόχο την ανάδειξη των χαραϰτηριστιϰών εϰείνων που ϰαταδειϰνύουν την πρόβλεψη αϑέτησης δανείων.el
dc.format.extent67el
dc.identifier.urihttps://amitos.library.uop.gr/xmlui/handle/123456789/8576
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.subjectArtificial Intelligenceel
dc.subjectNon-performing loansel
dc.subjectFinancial rehabilitationel
dc.subjectRisk managementel
dc.subject.keywordNon-performing loans, highly imbalanced dataset, Machine Learning,SMOTE, Random Under Sampler, Focal Loss, Weighted Loss, Random Forest, XGBoostel
dc.titleAI-driven rehabilitation indicators for non-performing creditel
dc.title.alternativeΔείκτες αποκατάστασης μη εξυπηρετούμενων δανείων με τη βοήθεια της τεχνητής νοημοσύνηςel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Kinti_dit2126dsc.pdf
Size:
1.88 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
933 B
Format:
Item-specific license agreed upon to submission
Description: