На хакатоне, проходившем 6-8 октября в БФУ им. И. Канта в Калининграде, при поддержке Альфа Банка, перед участниками стояла задача оптимизации работы с корпоративными клиентами банка на основе больших данных.
В данном репозитории представлено решение команды pip, занявшей 2 место в соревновании. А также мой черновик в папке drafts, в котором я тестировал свои предположения относительно признаков, модели, а также свои идеи по задаче. Некоторые участки кода в черновике могут быть исполняемыми с определенными условиями, либо необязательными для запуска, так как занимают слишком много времени для выполнения. Например построение больших графиков. Об этом будет дополнительно указано в содержимом.
Гитхаб одного из моих сокомандников: https://github.com/Lebedkina В нем так же имеются черновики, содержащие наши мысли по поводу задачи.
На клиентских данных для юридических лиц необходимо спрогнозировать отток клиентов из банка. Под оттоком подразумевается прекращение финансовой активности клиента или закрытие РКО (Расчетно-кассового обслуживания)
Он длился с 19:00 6 октября до 17:00 7 октября, нам нужно было выполнить:
Изучить данные, обработать и визуализировать
- Предобработать данные
- Отобрать наиболее важные факторы, проанализировать на наличие зависимостей между ними и визуализировать
Выполнить задачу классификации клиентов:
- Построить модель, прогнозирующую отток клиента из банка
- Оценить точность предсказания по метрике ROC-AUC на открытой выборке
Набор данных представлял собой таблицу со 100 факторами и содержал информацию о клиентах и их активностях внутри банка.
300000 записей - обучающая выборка
100000 записей - тестовая выборка
Целевая переменная:
- Прекразение финансовой активности клиента (Y1) или закрытие РКО (Y2)
- Итоговый таргет Y = max(Y1,Y2)
Оценка решения на первом этапе производилась только по метрике ROC-AUC
Он длился с 18:00 7.10 по 13:30 8.10
Задачи были следующими:
- Доработать модель, создать репозитрий с документацией и поспроизводимым решением
- Сформулировать базнес-инсайты по результатам визуализации и моделировани. Определить наиболее интерпретируемые для бизнеса метрики, с помощью которых оценить модель.
- Презентовать свое решение и результаты перед членами жюри: подготовить выступление на 5-7 минут
В презентации решения:
- Описать подход к решению задачи и полученные результаты
- Подготовить визуализацию данных
- На основе построенной модели сформулировать полезные и понятные для бизнеса выводы
Критерии, по которым оценивали решения в финале:
Техническая сторона:
- Значение метрики ROC-AUC
- Воспроизводимость и читабельность кода
- Широта подхода: использование различных ML-алгоритмов, метрик качества модели
Бизнес-сторона:
- Качество и обоснованность инсайтов (выводов), полученных по результатам создания модели
- Оригинальность подхода и защиты решения
- Качество визуального оформления и логика презентации
Наши решения оценивались по нескольким критериям командой экспертов Альфа-Банка и БФУ