Прогнозирование оттока клиентов банка
КОМАНДА «ИНЖЕНЕРИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА»
Андреев Александр Михайлович – куратор от Уральского Федерального Университета
Бобкова Анастасия – куратор от Уральского Банка Реконструкции и Развития
Кожин Артём - Руководитель команды
Дюжев Алексей - Product Owner
Лебедева Дарья - Администратор команды
Сайдуллин Данил - Разработчик
Видео нашего выступления здесь - https://www.youtube.com/watch?v=ZFQTae5CfPY&list=PLqxmxO5VCBxQIJB523PAy5Th90S4vmUEX&index=86&t=322s
ПРОЕКТ
Прогнозирование оттока клиентов - это важная и актуальная задача для
любого банка, так как прогнозирование позволяет предотвратить уход
клиентов и улучшить качество обслуживания
Целевая аудитория ↓
Проблема ↓
Альтернативы ↓
Банки и аналогичные
финансовые организации
Отток клиентов банка - это
процесс ухода клиентов из банка в
результате:
На Kaggle есть множество соревнований по
прогнозированию оттока клиентов.
• недовольства услугами,
• низкой квалификации
персонала,
Одно из самых популярных соревнований - это
«Customer Churn Prediction»
от компании IBM
• высоких комиссий и т.д.
3
ЦЕЛЬ И ЗАДАЧИ ПРОЕКТА
Цель: Прогнозирование оттока клиентов банка
Задачи:
1. Изучение предметной области - прогнозирования оттока клиентов
2. Декомпозиция
проблемы
и
выявление
требований
заказчика,
предварительный анализ полученных от заказчика данных.
3. Создание модели машинного обучения
4. Оценка качества модели
5. Актуализация требований заказчика
4
АЛЬТЕРНАТИВЫ
На Kaggle есть множество соревнований по прогнозированию оттока клиентов.
Одно из самых популярных соревнований - это "Customer Churn Prediction" от компании IBM.
В этом соревновании участники должны построить модель машинного обучения, которая способна
предсказывать отток клиентов банка на основе исторических данных.
Данные на Kaggle содержат информацию о клиентах банка, как правило это: возраст, пол, зарплата,
баланс на счете, количество продуктов и т.д.
Также данные на Kaggle содержат информацию о том, ушел клиент из банка или н ет.
Наиболее популярными алгоритмами, используемыми для прогнозирования оттока клиентов, являются:
• логистическая регрессия,
• деревья решений,
• случайный лес,
• нейронные сети.
Важным аспектом при создании любой модели является выбор подходящих признаков.
Для этого можно использовать методы анализа главных компонент, анализа важности признаков и т.д.
5
ПРОЕКТИРОВАНИЕ РЕШЕНИЯ
Исходные данные. Обезличенные транзакционные данные по клиентам УБРиР с 2016 по 2023 года.
Стек. Python, btyd, lifetimes, Pandas, Numpy
Критерии оценки: F1 метрика модели на тестовых данных в RFM формате.
Преобразование данных в RFM формат:
данные по клиентам УБРиР с 2016 по 2023 года
• Вручную, используя различные операции группировки
• С использованием библиотеки Buy Till You Die, https://pypi.org/project/btyd/
Преобразование в RFM
6
ИДЕЯ – ИСПОЛЬЗОВАНИЕ ФОРМАТА ДАННЫХ RFM
В нашей модели данные
преобразуются в формат
RFM:
• Recency,
• Frequency,
• Monetary Value
• T
7
МАРКИРОВКА И СОЗДАНИЕ НОВЫХ ПРИЗНАКОВ
data_full['in_d_c'] = data_full['T_cal'] - data_full['recency_cal']
data_full['in_d_f'] = round((data_full['recency'] - data_full['T_cal’])/ data_full['frequency_holdout']) +
data_full['in_d_c']
data_full['avarage_purchases'] = data_full['frequency_cal'] / data_full['recency_cal']
Итоговая таблица данных
8
РЕЗУЛЬТАТЫ РАБОТЫ НАШЕЙ МОДЕЛИ
Метрики моделей при
преобразовании данных
вручную
Метрики
преобразовании данных с
помощью библиотеки BTYD
моделей
при
9
ПЛАНЫ ПО ДАЛЬНЕЙШЕМУ РАЗВИТИЮ ПРОЕКТА
Дальнейшие перспективы:
• Добавление новых признаков, связанных с клиентами (возраст, пол, вид транзакции и т.д.)
• Поиск наилучших параметров модели с помощью GridSearchCV
• Автоматизация получения и обработки новых данных
10
СПАСИБО ЗА ВНИМАНИЕ!
ПРОГНОЗИРОВАНИЕ ОТТОКА КЛИЕНТОВ БАНКА
Наши контакты в Telegram:
@Ctakan4ik – Кожин Артём
@Dyuzhev31 – Дюжев Алексей
@DashLeb – Лебедева Дарья
@Dmorphy – Сайдуллин Данил