В данном репозитории представлено решение задачи хакатона от Райффайзенбанка.
Задача предсталяла собой предсказание цен на коммерческую недвижимость в России (полное условие задачи по ссылке https://apply.raifhack.ru/competition).
Решение представлено в файле с расширением .py, в .ipynb - некоторое дополнение и промежуточные результаты
Использованные библиотеки указаны в файле requirements.txt.
Наша команда заняла почетное 107 место (некоторые ребята уже после хакатона сабмитили новые решения, поэтому на скрине мы ниже).
Решение представляет собой много-много фич инженеринга, оценку корреляций а также небольшую предобработку данных.
В обозримом будущем постараюсь улучшить проект дабы уже после соревнования залезть в топ-50. Как это можно сделать? В условиях неограниченного времени довольно просто: добить фичу floor и вероятно разбить ее при помощи ohe, попытаться стандартизировать данные, убрать фичи, корреляция которых будет ниже рандомного значения. Ну и конечно же модельная часть: провести подбор гиперпараметров, сравнить результаты с градиентным бустингом, попробовать в нейросети (хочу полностью обучить перцептрон для регрессии). Также можно попытаться обучить модель классификации на обучающей выборке с типом realty_class = 1 (оценка была произведена оценщиком) и сделать предикт с высоким порогом (+- 0.75, но надо будет смотреть по факту разумеется) дабы получить больше данных для обучения модели.
P.S. среди топ-200 только у нас один сабмит был, нам просто не хватило времени (: