Giter Site home page Giter Site logo

raifhack-ds's Introduction

Постановка задачи: на основании данных о продаже коммерческой недвижимости необходимо построить модель, прогнозирующую изменение цен.

Финальное решение

скор / место: 1.2980 / 46 public ➡ 1.1634 / 72 private

решение вошло в 🔝20% private лидерборда

woe-скоры

  • модель AutoWoE
  • woe-скоры определяют вероятность принадлежности объекта к одной из 10 ценовых категорий (один из самых фажных факторов) 🔥

гео-факторы 🌍

  • аггрегаты по ценам объектов в радиусе 10 км от исследуемого
  • geohash-фактор, построенный на широте и долготе

обучение K-means модели и добавление кластера как фактора

  • кластеризация на широте и долготе
  • кластеризация на osm-факторах

предобработка факторов этаж и улица

добавление новых логических факторов

данные из внешних источников по регионам (Росстат) 📚

  • датасет 1 Среднемесячная начисленная зарплата наемных работников в организациях, у ИП и физических лиц. Информация о среднемесячной начисленной заработной плате наемных работников в организациях, у индивидуальных предпринимателей и физических лиц (среднемесячном доходе от трудовой деятельности). Квартальная оценка среднемесячной начисленной заработной платы наемных работников в организациях, у индивидуальных предпринимателей и физических лиц.

  • датасет 2 Оперативная информация. Оценка численности постоянного населения на 1 января 2021 г. и в среднем за 2020 г.

  • датасет 3 Просроченная задолженность по заработной плате работникам организаций, не относящихся к субъектам малого предпринимательства, по субъектам Российской Федерации c 2019 года.

  • датасет 4 лист t1_2. ЕСТЕСТВЕННОЕ ДВИЖЕНИЕ НАСЕЛЕНИЯ В РАЗРЕЗЕ СУБЪЕКТОВ РОССИЙСКОЙ ФЕДЕРАЦИИ за июль 2021 года.

обучение модели 📉

  • catboost на 5-фолдах
  • на размеченных в ручную объектах (определено экспериментальным путем, в тестовой выборке представлены объекты только ручной разметки)
  • на логарифмированный таргет (подобрано экспериментальным путем, ошибка в таком случае лучше минимизируется)
  • на отобранных факторах (список факторов сокращен таким образом, чтобы модель на сокращенном списке факторов давала качество не хуже, чем на полном списке факторов)
  • на подобранных гиперпараметрах (с помощью алгоритма optuna)

что было попробовано, но не использовалось в итоговом решении

  • кастомный лосс для кастомной метрики хакатона
  • LightAutoML 🦙
  • дополнительные источники данных и некоторые логические и гео-факторы
  • добавление в обучающую выборку объектов не ручной разметки с нулевой ошибкой после обучения модели

Ключевые моменты публичного решения

отдельная номинация за публикацию решения до окончания соревнования

  • генерация гео-факторов
  • предобработка факторов этаж и улица
  • обучение модели только на размеченных в ручную объектах
  • скор на лидерборде 1.7563 → 1.4662 (с помощью небольших изменений полученного решения можно получить скор 1.4387 → 1.2662)

Описание

pip install -r requirements.txt 
  • additional_data - дополнительные данные с сайта Росстата

  • data - сгенерированные WOE-скоры

  • submit - содержит итоговый сабмит и сабмит для публичного решения

  • woe_features.ipynb - генератор WOE-скоров. Необходимо выполнить до запуска основного ноутбука

jupyter nbconvert --to notebook --execute woe_features.ipynb
  • final_solution.ipynb - итоговый ноутбук с обучением основной модели и получением предсказания
jupyter nbconvert --to notebook --execute final_solution.ipynb
jupyter nbconvert --to notebook --execute public_solution.ipynb

License

© Aleksey Podchezertsev, Mariia Samodelkina, 2021. Licensed under the MIT License. See LICENSE file for more details.

raifhack-ds's People

Contributors

asciishell avatar goo-goo-goo-joob avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.