AI-driven rehabilitation indicators for non-performing credit

Κιντή, Αικατερίνη

AI-driven rehabilitation indicators for non-performing credit

dc.contributor.advisor	Ζαβιτσάνος, Ηλίας
dc.contributor.author	Κιντή, Αικατερίνη
dc.contributor.committee	Vasilakos, Konstantinos
dc.contributor.committee	Akasiadis, Charilaos
dc.contributor.committee	Zavitsanos, Elias
dc.contributor.department	Τμήμα Πληροφορικής και Τηλεπικοινωνιών	el
dc.contributor.faculty	Σχολή Οικονομίας και Τεχνολογίας	el
dc.contributor.master	Επιστήμη Δεδομένων	el
dc.date.accessioned	2025-01-29T09:16:05Z
dc.date.available	2025-01-29T09:16:05Z
dc.date.issued	2025-01
dc.description.abstract	The banking sector and lending organizations are undergoing significant transformation, driven by advancements in Machine Learning (ML). A pivotal application of ML in this domain is loan default prediction, which is essential for developing robust credit scoring systems and maintaining financial stability for banks and financial institutions. This study focuses on analyzing account- and customer-related attributes that contribute to non-performing loans (NPLs), via SHAP and LIME, with the goal of uncovering insights that can inform effective and mutually beneficial resolution strategies. Using a proprietary dataset comprising 326 attributes, the study addresses the challenge of imbalanced classification, where the dataset is heavily skewed towards performing loans, often hindering model performance. To address this, four experimental scenarios were explored: (a) a baseline model trained on the original dataset, (b) an artificially balanced dataset with equal class representation, (c) an approach combining oversampling via Synthetic Minority Oversampling Technique (SMOTE) and Undersampling with RandomUnderSampler, and (d) the application of focal and weighted loss functions to XGBoost model. Among all scenarios, the combination of SMOTE and Random UnderSampler proved most effective. The Random Forest model emerged as the top performer, achieving a ROC-AUC score of 0.7402 and a Precision- Recall AUC of 0.0126. This study emphasizes the critical role of tailored preprocessing and evaluation methodologies in navigating the complexities of imbalanced data. It demonstrates the potential for incorporating preprocessing techniques to handle the redistribution of data across the 2 classes, including sampling strategies and loss function modifications, in order to highlight those attributes that demonstrate the predictability of loan defaults.	el
dc.description.abstracttranslated	Ο τραπεζιϰός τομέας ϰαι οι δανειοδοτιϰοί οργανισμοί υφίστανται σημαντιϰό μετασχη- ματισμό, ο οποίος ϰαϑοδηγείται από τις εξελίξεις στη μηχανιϰή μάϑηση (ML). Μια ϰαίρια εφαρμογή της ML σε αυτόν τον τομέα είναι η πρόβλεψη της αϑέτησης των δανείων, η οποία είναι απαραίτητη για την ανάπτυξη ισχυρών συστημάτων πιστωτιϰής βαϑμολόγησης ϰαι τη διατήρηση της οιϰονομιϰής σταϑερότητας για τις τράπεζες ϰαι τα χρηματοπιστω- τιϰά ιδρύματα. Η παρούσα μελέτη επιϰεντρώνεται στην ανάλυση χαραϰτηριστιϰών που σχετίζονται με λογαριασμούς ϰαι πελάτες ϰαι συμβάλλουν στα μη εξυπηρετούμενα δάνεια (NPLs), με στόχο την αποϰάλυψη πληροφοριών μέσω SHAP ϰαι LIME για αποτελεσματιϰές ϰαι αμοιβαία επωφελείς στρατηγιϰές επίλυσης. Χρησιμοποιώντας ένα σύνολο δεδομένων που περιλαμβάνει 326 χαραϰτηριστιϰά, η με- λέτη αντιμετωπίζει την πρόϰληση της ανισομερούς ϰατανομής δεδομένων, όπου το σύνολο δεδομένων αφορά τα εξυπηρετούμενα δάνεια, γεγονός που συχνά εμποδίζει την απόδοση του αλγόριϑμου. Για να αντιμετωπιστεί αυτό, έτρεξαν τέσσερα πειραματιϰά σενάρια: (α) ένα βασιϰό μοντέλο που εϰπαιδεύτηϰε στο αρχιϰό σύνολο των δεδομένων, (β) ένα τεχνητά ισορροπημένο σύνολο δεδομένων με ίση ϰατανομή δεδομένων ϰαι στις δύο ϰλάσεις, (γ) μια προσέγγιση που συνδυάζει την τεχνιϰή Synthetic Minority Oversampling Technique (SMOTE) ϰαι την RandomUnderSampler, ϰαι (δ) η εφαρμογή Focal ϰαι Weighted Loss στο μοντέλο XGBoost. Για την αξιολόγηση της απόδοσης του μοντέλου χρησιμοποιήϑηϰαν μετριϰές αξιολόγη- σης προσαρμοσμένες σε δεδομένα με μεγάλη αναϰατανομή των ϰλάσεων. Μεταξύ όλων των σεναρίων, ο συνδυασμός SMOTE ϰαι Random UnderSampler αποδείχϑηϰε ο πιο αποτελεσμα- τιϰός. Το μοντέλο Random Forest αναδείχϑηϰε ως ο αλγόριϑμος με τις ϰαλύτερες επιδόσεις, επιτυγχάνοντας βαϑμολογία ROC-AUC 0.7402 ϰαι PRECISION-RECALL AUC 0.0126. Αυτή η μελέτη υπογραμμίζει τον ϰρίσιμο ρόλο των προσαρμοσμένων μεϑοδολογιών προ- επεξεργασίας ϰαι αξιολόγησης στην αντιμετώπιση μεγάλων αναϰατανομών στις ϰλάσεις. Καταδειϰνύει τις δυνατότητες ενσωμάτωσης τεχνιϰών προεπεξεργασίας για τον χειρισμό της αναϰατανομής των δεδομένων στις δύο ϰλάσεις, συμπεριλαμβανομένων των sampling strategies ϰαι loss function modifications, με στόχο την ανάδειξη των χαραϰτηριστιϰών εϰείνων που ϰαταδειϰνύουν την πρόβλεψη αϑέτησης δανείων.	el
dc.format.extent	67	el
dc.identifier.uri	https://amitos.library.uop.gr/xmlui/handle/123456789/8576
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πελοποννήσου	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Artificial Intelligence	el
dc.subject	Non-performing loans	el
dc.subject	Financial rehabilitation	el
dc.subject	Risk management	el
dc.subject.keyword	Non-performing loans, highly imbalanced dataset, Machine Learning,SMOTE, Random Under Sampler, Focal Loss, Weighted Loss, Random Forest, XGBoost	el
dc.title	AI-driven rehabilitation indicators for non-performing credit	el
dc.title.alternative	Δείκτες αποκατάστασης μη εξυπηρετούμενων δανείων με τη βοήθεια της τεχνητής νοημοσύνης	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Kinti_dit2126dsc.pdf
Size:: 1.88 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 933 B
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)