Giter Site home page Giter Site logo

cliffordlai / 2018-ccf-bdci--top3 Goto Github PK

View Code? Open in Web Editor NEW

This project forked from zainhuang/2018-ccf-bdci--top3

0.0 2.0 0.0 631 KB

参赛者需要根据给出的基金净值、基金业绩比较基准、对应指数行情、基金间相关性等数据,构建模型、算法进行训练。

Python 100.00%

2018-ccf-bdci--top3's Introduction

2018-CCF-BDCI-基金相关性预测TOP3

赛题:2018 CCF大数据与计算智能大赛(BDCI 2018 )——基金相关性预测(目前仍有训练赛可供练习。
训练赛地址:https://www.datafountain.cn/competitions/328/details)
数据集下载地址:https://www.datafountain.cn/competitions/328/details

数据探索

赛题给予2015-09-29至2018-03-16共600个交易日的基金的复权净值收益率,业绩比较基准的收益率,重要市场指数收益率、以及基金间的相关性等4组数据。其中基金间的相关性是本次研究的目标。

  • 1、 结合基金相关性预测这一主题,我们初步认为基金间的复权净值收益率相关性和基准收益率相关性是本次研究的重要特征;

  • 2、 我们对特征集进行运算操作,并通过曲线图进行展示发现:基金间净值收益率的距离值及其累计值距离对基金相关性的拟合程度较高(如下图所示),因此。我们认为基金间净值收益率的距离值及其累计值是两组重要特征。

  • 3、 对目标数据集进行数据描述性探索,通过mean\25%\50%\75%位数可以看出不同基金对的相关行存在一种比例的关系。因此,我们认为目标数据的描述性数据能为我们的预测模型提供一定的支撑作用。

  • 小结:我们认为复权净值收益率相关性、基准收益率相关性、基金间净值收益率的距离值及其累计值、描述性数据是本次研究的重要特征。

特征工程:

基于对数据的探索结果,我们开展如下特征构建工作:

  • 1、对数据按一定的时间区间提取复权净值收益率相关性、基准收益率相关性、基金间净值收益率的距离累计值及其相关性等4组特征数据。通过测试,我们最终确定每间隔20天提取特征数据,共提取20次。(即提取0-20天、0-40天……0-400天的特征数据)

  • 2、计算目标集全部天数的mean\25%\50%\75%数值,作为特征数据,共4组特征数据

  • 3、提取一定时间区间内的基金间每天的净值收益率距离值,并计算其距离值之和(融合成1列特征),经过尝试,确定提取【0-5天,0-30天,0-60天,0-90天】的净值收益率距离值之和作为特征。

最终模型

选用xgboot和lightgbm进行融合构建:

  • 解决模型过拟合的方法:
  • 1、叠加“2017-12-1”-“2017-12-13”的基金间的相关性作为训练集,数据叠加的方法进行改良:保持特征数据集不变,划动基金间的相关性(y值)的方式进行数据叠加(“2017-12-13”的特征数据集重复10次,训练目标为“2017-12-1”-“2017-12-13”的基金间的相关性)。

  • 2、模型融合时,以xgboost和lightgbm的验证集输出结果作为训练集,lightgbm&lightgbm的测试集输出结果作为测试集。

2018-ccf-bdci--top3's People

Contributors

zainhuang avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.