PJのrootディレクトリにいると仮定すると、
python3 scripts/run.py
でデータ読み込み〜動作します。
-
prd
: オリジナルのcsvファイルを読み込む(デフォルト) -
dev
: オリジナルのcsvファイルから100kのみ読み込む(検証モード) -
pkl
: オリジナルのcsvファイルをpkl変換したデータを読み込む。ローカルで全件動作確認する場合はこちらが推奨
-
True : 特徴量生成処理を実行する(デフォルト)
-
False : 特徴量生成処理を実行しない。すでに特徴量生成が終了しており、モデルのパラメータチューニングなどを行う際に使用する
-
lbg
: LightGBMでの学習を行う(デフォルト) -
cb
: CatBoostでの学習を行う -
nn
: MLPでの学習を行う -
all
: LightGBM、CatBoost、MLPで学習を行い、最後にブレンドしたsubを作成する
-
True : kaggleのカーネル実行
-
False : ローカル実行(デフォルト)
スクリプトの動作確認時などは以下のコマンドで高速で実行確認できます。
python3 scripts/run.py --mode='dev'
参考:python-fire
- 通常で実行するよりデータの読み込みが高速に行えます
python3 scripts/run.py --mode='pkl'
python3 scripts/run.py --mode='prd'
sh scripts/make_submission.sh
を実行すると、kaggle notebook環境で実行可能なスクリプトが生成されます。(for_script_submission.py
)
コピペで動くところまで確認済みです。
※コード構成にめちゃくちゃ依存しているので、コードいじっているうちに動かなくなる可能性はあります汗
-
loghtGBMやxgboost、scikit-learnの各モデルをラップしたクラス。学習や予測を行う。
-
このクラスを継承してモデルスクリプトを作成することで、インターフェースの差分を吸収(e.g.
model_lgb.py
)
- CV含めて学習・予測の一連の流れを行うクラス。
-
ファイル入出力
-
ログの出力・表示
-
計算結果の出力・表示