Light

takapy0210 / kaggle_dsb Goto Github PK

View Code? Open in Web Editor NEW

1.0 2.0 0.0 11.94 MB

https://www.kaggle.com/c/data-science-bowl-2019/overview/description

Python 6.35% Jupyter Notebook 93.50% Shell 0.14%

kaggle kaggle-competition python

kaggle_dsb's Introduction

kaggle_dsb

Pipeline

ローカルでの実行

PJのrootディレクトリにいると仮定すると、

python3 scripts/run.py

でデータ読み込み〜動作します。

引数について

--mode

prd : オリジナルのcsvファイルを読み込む（デフォルト）
dev : オリジナルのcsvファイルから100kのみ読み込む（検証モード）
pkl : オリジナルのcsvファイルをpkl変換したデータを読み込む。ローカルで全件動作確認する場合はこちらが推奨

--create_features

True : 特徴量生成処理を実行する（デフォルト）
False : 特徴量生成処理を実行しない。すでに特徴量生成が終了しており、モデルのパラメータチューニングなどを行う際に使用する

--model_type

lbg : LightGBMでの学習を行う（デフォルト）
cb : CatBoostでの学習を行う
nn : MLPでの学習を行う
all : LightGBM、CatBoost、MLPで学習を行い、最後にブレンドしたsubを作成する

--is_kernel

True : kaggleのカーネル実行
False : ローカル実行（デフォルト）

テスト実行

スクリプトの動作確認時などは以下のコマンドで高速で実行確認できます。

python3 scripts/run.py --mode='dev'

参考：python-fire

pklファイル（全データ）での読み込み実行

通常で実行するよりデータの読み込みが高速に行えます

python3 scripts/run.py --mode='pkl'

csvファイル（全データ）での読み込み実行（デフォルトの動作）

python3 scripts/run.py --mode='prd'

kaggleへのサブミット

sh scripts/make_submission.sh

を実行すると、kaggle notebook環境で実行可能なスクリプトが生成されます。（for_script_submission.py）コピペで動くところまで確認済みです。

※コード構成にめちゃくちゃ依存しているので、コードいじっているうちに動かなくなる可能性はあります汗

run.py関連の説明

model.py

loghtGBMやxgboost、scikit-learnの各モデルをラップしたクラス。学習や予測を行う。
このクラスを継承してモデルスクリプトを作成することで、インターフェースの差分を吸収（e.g. model_lgb.py）

runner.py

CV含めて学習・予測の一連の流れを行うクラス。

util.py

ファイル入出力
ログの出力・表示
計算結果の出力・表示

kaggle_dsb's People

Contributors

Stargazers

Watchers

kaggle_dsb's Issues

NNモデルの追加

LightGBMの特徴量可視化ファイルをTOP100のみ出力するように修正する

現在は全ての特徴量に対して画像ファイルに出力しているが、出力に時間がかかるため実験速度が落ちてしまう。
TOP100の特徴量だけ画像出力し、残りはcsvファイルにて全件出力するように修正する。

また、splitの出力はあまり意味がないので、コメントアウトする。

Notebookを漁る

見たNotebookは念の為Slackで共有

Kaggleのkernelでtqdmのログが出ないようにする

get_train_and_test メソッドに verbose 引数を追加して、True（デフォルト） の場合は進捗バーを出力し、False の場合は表示しない。

make_submission.sh にて、kaggle提出用コードに変換する際に True → False に置換する。

GroupKFoldの対応

Discussionをみていると、validationの切り方は installation_id と対象とした GroupKFold でやってやっている人が多そうなので、実装する。

参考：https://www.kaggle.com/c/data-science-bowl-2019/discussion/114783#718681

バギングを実装する

まずバギングをやれとのことなので実装してみる
https://www.kaggle.com/c/data-science-bowl-2019/discussion/117728

カテゴリカルな特徴量を明示的に指定する

specsの特徴量を追加する（Game情報）

モデルをブレンドした結果をsubできるようにする

下記カーネルを参考に、複数モデルの予測値をブレンドしてsubを作成できるようにする。

https://www.kaggle.com/braquino/convert-to-regression

Kaggle Notebookの環境をローカルで再現できるようにDockerfileを作る

load_data.pyにload_pickle_data.pyの内容をマージさせる

ローカルのpythonスクリプトをkaggleのKernelで動くように変換する.shの修正

NN学習時、カテゴリ変数（session_title）はone-hot encodingする

Xgboostのモデルを追加する

アクセスしている時間帯の分布、遊んだアクティビティタイプの分布の特徴を作成する

LightGBMのパラメータ変更

下記のように変更する
（kernel: https://www.kaggle.com/takanobu0210/revenge-all-features-lgb-0117）

model_params = {
            'boosting_type': 'gbdt',
            'objective': 'regression',
            'metric': 'rmse',
            'learning_rate': 0.01,
            'subsample': 0.75,
            'subsample_freq': 1,
            'feature_fraction': 0.9,
            'max_depth': 15,
            'lambda_l1': 1, 
            'lambda_l2': 1,
            'num_round': 50000,
            'early_stopping_rounds': 300,
            'verbose': -1,
            'verbose_eval': 500,
            'random_state': 999
        }

foldごとのscore計算を修正する

現在、CVの各foldごとのscore計算を qwk 関数を用いて計算しているが、関数実行前に予測値の変換を行っていないため、LightGBMのログなどと乖離した値がscoreとして出力されてしまっている。

正しく変換したのち、score計算を実行するように修正する。

LightGBMのログMetrics

training's rmse: 0.816605       training's cappa: 0.755143      valid_1's rmse: 0.967704        valid_1's cappa: 0.616568
training's rmse: 0.801463       training's cappa: 0.766302      valid_1's rmse: 0.981381        valid_1's cappa: 0.593621
training's rmse: 0.745162       training's cappa: 0.808769      valid_1's rmse: 0.968121        valid_1's cappa: 0.605381
training's rmse: 0.797177       training's cappa: 0.769689      valid_1's rmse: 0.997192        valid_1's cappa: 0.59334
training's rmse: 0.803019       training's cappa: 0.764869      valid_1's rmse: 0.97122 valid_1's cappa: 0.619453

CVごとのscore計算

[2020-01-06 21:00:38] - lgb_0106_2055 fold 0 - start training
[2020-01-06 21:00:38] - lgb_0106_2055 fold 0 - end training - score 0.4767861778852178
[2020-01-06 21:00:38] - lgb_0106_2055 fold 1 - start training
[2020-01-06 21:01:20] - lgb_0106_2055 fold 1 - end training - score 0.4687060363768907
[2020-01-06 21:01:20] - lgb_0106_2055 fold 2 - start training
[2020-01-06 21:02:04] - lgb_0106_2055 fold 2 - end training - score 0.47542024561127805
[2020-01-06 21:02:04] - lgb_0106_2055 fold 3 - start training
[2020-01-06 21:02:44] - lgb_0106_2055 fold 3 - end training - score 0.4614482601572223
[2020-01-06 21:02:44] - lgb_0106_2055 fold 4 - start training
[2020-01-06 21:03:25] - lgb_0106_2055 fold 4 - end training - score 0.4926674984073748
[2020-01-06 21:03:25] - lgb_0106_2055 - end training cv - score 0.47500564368759673

kaggleのカーネルで実行した際もfeature_importanceが出力されるようにする

合わせて、画像の出力サイズも見やすいように修正する

特徴量選択のコード追加

現状、特徴量選択をするとスコアが下がるが、コメントアウトした状態で追加しておく

参考にしたカーネル：https://www.kaggle.com/mnassrib/convert-to-regression-random-score?scriptVersionId=26919690
subした結果のkernel：https://www.kaggle.com/takanobu0210/feature-selection-adjust-cb

pklデータ変換&読み込みスクリプトの作成

csvファイルの読み込みに合計1分位かかるので、高速化するためにpklデータで取り回しできるようにする。
約1/5の読み込み時間になる想定。

xgboostのパラメーターを良い感じに修正する

この辺りが参考になりそう
- https://www.kaggle.com/braquino/convert-to-regression

カーネルを参考とした特徴量生成

下記カーネルの特徴量生成処理を追加する

https://www.kaggle.com/artgor/quick-and-dirty-regression

utilのloggerを1つにまとめる

NNの動作を正常なものにする

現在は0 or 3の推論しかしていないように見えるので、これを正常な値を推論できるように修正する
- https://www.kaggle.com/takanobu0210/nn-exec-test

時間特徴量の追加

１つのスクリプトファイルだけ弄ればPDCAを回せるようになる.pyを作成する

複数の特徴量を追加

get_data 関数内の特徴量処理を充実させる

catboostの追加

PLBのスコアが0.525→0.532に向上しました

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.