赛题回顾
赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内是否核销。评测指标采用AUC,先对每个优惠券单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。
主要工作
- 特征工程
- 采用SW方式对数据集进行特征提取,解决测试集特征缺失问题
- 题目数据所给特征非常少,对比多种特征提取方法,最终采用人工特征提取效果最优
- 后续对特征进行缺失值处理、二值化、One-Hot、数据变换、特征选择等
- 模型参数优化
- 对比LR、SVM、RF、GBDT、XGBoost等多模型后,最终选择XGBoost
- 采用CV+GridSearch进行参数调优
- 模型融合
- 对比加权Average和两层Stacking两种融合方式,AUC略微提升
- 最后采用多个过拟合、欠拟合模型(不同模型)融合,得到最优结果
- 循环调优
- 根据提交结果,重新筛选特征、调整模型参数、调整融合方式
文档目录
- intruduction.pdf:详细介绍(配有图文)
- code:特征工程、模型
- result:模型及预测结果
- 成绩.bmp:最终提交成绩