پیش‌بینی ارزش مشتریان بانکی با یادگیری ماشین: رویکرد نوین مبتنی‌بر نمونه‌گیری مصنوعی تطبیقی و اهمیت ویژگی‌ها

نوع مقاله : مقاله علمی پژوهشی

نویسندگان

1 استاد، گروه مدیریت صنعتی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران.

2 دانشجوی دکتری، گروه مدیریت صنعتی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران.

3 دانشجو دکتری، گروه مدیریت صنعتی، پردیس بین المللی کیش، دانشگاه تهران، تهران، ایران.

چکیده

هدف: پیش‌بینی دقیق ارزش مشتریان در صنعت بانکداری یکی از چالش‌های اساسی است که می‌تواند به تصمیم‌گیری بهینه در حوزه مدیریت مشتریان و تخصیص منابع کمک کند. این تحقیق با هدف توسعه یک رویکرد جامع برای پیش‌بینی ارزش مشتریان بانکی انجام شده است. تمرکز اصلی این مطالعه بر مدیریت چالش عدم‌تعادل داده‌ها، بهبود عملکرد مدل‌های یادگیری ماشین، و انتخاب ویژگی‌های کلیدی موثر بر پیش‌بینی ارزش مشتریان برای کاربردهای واقعی در محیط‌های بانکی است.

روش‌شناسی: در این پژوهش، داده‌های مربوط به 2هزار مشتری یک بانک، شامل 14 ویژگی کلیدی مرتبط با تراکنش‌ها و رفتار مشتریان، مورد تحلیل قرار گرفت. مراحل تحقیق شامل پیش‌پردازش داده‌ها، انتخاب ویژگی‌های مهم، و مدیریت عدم تعادل داده‌ها با استفاده از تکنیک ADASYNبود. انتخاب ویژگی‌های مهم با استفاده از ترکیب تحلیل همبستگی و روش Feature Importance مبتنی بر الگوریتم Random Forest انجام شد. در این فرآیند، ابتدا ویژگی‌هایی با همبستگی بالا شناسایی شدند و سپس بر اساس میزان اهمیت آنها، ویژگی‌های کلیدی انتخاب شدند. سپس، 11 الگوریتم یادگیری ماشین، از جمله CatBoost، XGBoost، Random Forest، LightGBM و سایر مدل‌های خطی و غیرخطی، برای پیش‌بینی ارزش مشتریان به‌کار گرفته شد. به‌منظور بهینه‌سازی عملکرد مدل‌ها، از چارچوب Optuna برای تنظیم خودکار‌هایپرپارامترها و از اعتبارسنجی متقاطع پنج‌برابری برای ارزیابی دقیق مدل‌ها استفاده شد. عملکرد مدل‌ها براساس 4 شاخص ارزیابی اصلی شامل صحت (Accuracy)، دقت (Precision)، فراخوانی (Recall) و امتیاز F1 سنجیده شد.

یافته‌ها: نتایج نشان داد که الگوریتم‌های مبتنی‌بر یادگیری جمعی بهترین عملکرد را در پیش‌بینی ارزش مشتریان ارائه می‌دهند. مدل CatBoost با امتیاز F1 برابر 9324/0 و صحت 909/0 به‌عنوان بهترین مدل شناسایی شد. این مدل توانست تعادلی مناسب میان دقت و فراخوانی ایجاد کند، به‌گونه‌ای که دقت مدل در پیش‌بینی مشتریان ارزشمند به 9677/0 و فراخوانی آن به 8998/0 رسید. مدل‌های XGBoost و Random Forest نیز عملکردی مشابه با CatBoost داشتند و امتیاز F1 آنها به ترتیب 9322/0 و 932/0 بود. استفاده از رویکرد ترکیبی جهت انتخاب ویژگی‌ها و استفاده از روش ADASYN برای ایجاد تعادل در داده‌ها، نقش مهمی در بهبود عملکرد این مدل‌ها ایفا کرد.

نتیجه‌گیری : مطالعه حاضر نشان داد که استفاده از رویکردهای نوین یادگیری ماشین همراه با تکنیک‌های پیش‌پردازش تطبیقی مانند ADASYN می‌تواند به‌طور قابل‌توجهی عملکرد مدل‌های پیش‌بینی ارزش مشتری را بهبود بخشد. انتخاب دقیق ویژگی‌ها با استفاده از ترکیب تحلیل همبستگی و اهمیت ویژگی‌ها مبتنی‌بر الگوریتم Random Forest نقش مهمی در بهبود عملکرد مدل‌ها داشت. این فرآیند با شناسایی و حذف ویژگی‌های تکراری و کم‌اهمیت، مدل‌ها را قادر ساخت تا با تمرکز بر اطلاعات کلیدی و مؤثر، دقت پیش‌بینی را افزایش دهند. مدل‌های یادگیری جمعی مانند CatBoost، XGBoost و Random Forest به دلیل دقت بالا و توانایی در مدیریت داده‌های پیچیده و نامتعادل، بهترین گزینه‌ها برای کاربرد در محیط‌های بانکی هستند. این تحقیق با رفع محدودیت‌های پژوهش‌های پیشین و ارائه رویکردی جامع برای مدیریت داده‌های نامتعادل و انتخاب ویژگی‌های کلیدی، گامی مؤثر در جهت بهینه‌سازی استراتژی‌های مدیریت مشتریان در صنعت بانکداری برداشته است. نتایج به‌دست‌آمده می‌تواند به بانک‌ها کمک کند تا با شناسایی دقیق مشتریان ارزشمند، سیاست‌های بهتری برای حفظ مشتریان و تخصیص منابع تدوین نمایند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Predicting Customer Value in Banking Using Machine Learning: A Novel Approach Based on Adaptive Synthetic Sampling and Feature Importance

نویسندگان [English]

  • Ahmad Jafarnjad 1
  • Arman Rezasoltani 2
  • Amir Mohammad Khani 2
  • Sayedeh Hoda Hosseinian 3
1 Prof., Department of Industrial Management, Faculty of Management, University of Tehran, Tehran, Iran.
2 Ph.D. Candidate, Department of Industrial Management, Faculty of Management, University of Tehran, Tehran, Iran.
3 Ph.D. candidate, Department of Industrial Management, Faculty of Kish International Campus, University of Tehran, Tehran, Iran.
چکیده [English]

Objective: Accurate prediction of customer value in the banking industry is one of the fundamental challenges that can contribute to optimal decision-making in customer management and resource allocation. This study aims to develop a comprehensive approach for predicting the value of banking customers. The primary focus of this research is on addressing the challenge of imbalanced data, improving the performance of machine learning models, and selecting key features that are effective in predicting customer value for real-world applications in banking environments.

Methodology: In this paper, the data of one of the banks involving 2000 customers and 14 features are correlated to the transaction and customers’ activity. The requirements of data preprocessing were done, followed by the selection of the features as well as data imbalance and applying ADASYN technique. The analysis of the correlation between the variables and the Feature Importance method according to the results of the Random Forest algorithm was also used to complete the feature selection. In this process of the algorithm, features with high correlation have been obtained and the final usual features have been selected. After that, the 11 machine learning algorithms such as CatBoost, XGBoost, Random Forest, LightGBM, and linear and nonlinear models were used to predict the customer value. For the better performance of the presented models, the Optuna was adopted for hyper-parameter tuning while the cross-validation analysis was applied into five fold for precise model estimation. Among the four tests that were used to evaluate the performance of the models, accuracy, precision, recall, and F1 score tests were used.

Findings: The results showed that ensemble learning-based algorithms provided the best performance in predicting customer value. The CatBoost model, with an F1 Score of 0.9324 and an accuracy of 0.909, was identified as the best-performing model. This model achieved a proper balance between precision and recall, with a precision of 0.9677 and a recall of 0.8998 in predicting valuable customers. The XGBoost and Random Forest models also demonstrated similar performance to CatBoost, with F1 Scores of 0.9322 and 0.932, respectively. The use of a combined approach for feature selection and the application of the ADASYN method for data balancing played a significant role in improving the performance of these models.

Conclusion: These results show that a different approach to data preprocessing with the help of the ADASYN algorithm in combination with modern machine learning methods can positively affect the effectiveness of models predicting customer value. The correlated variables selection and the feature importance based on the Random Forest was important in improving the general performance of the models. This revolution allowed strengthening the work of models through the elimination of features and information that had less impact in the final decisions, making the latter more precise. Based on the results of its evaluation, it can be concluded that ensemble learning models, therefore CatBoost, XGBoost, and Random Forest, are the most appropriate for banking settings because of its efficiency and effectiveness in dealing with large-scale, complex, and imbalanced datasets. Thus, the current paper has oriented itself on extending the previous research studies, addressing the issues of imbalanced data and feature selection to enhance the customer management in the banking sector, which contributed to the development of an efficient approach to the challenge. The results are useful for the definition of the criteria for the identification of the banks’ high value costumer base and the formulation of improved policies regarding their retention and servicing.

کلیدواژه‌ها [English]

  • Machine Learning
  • Customer Value Prediction
  • Data Imbalance
  • ADASYN
  • CatBoost