- LightGBM
- XGBoost
- feather-format
- Keras
cd feature
python feature.py nocache
cd ../model
python lgbm.py
cd feature
python feature.py nocache
cd ../model
python lgbm.py
家族の数、居住エリア、家の情報が完全一致する人がいるか?
Number of Credit Linesといった名前で、他のローンコンペで使われる特徴量
「アクティブなローン」を「最後のMonthly StatusがActiveで、かつ直近12か月に更新があったもの」と定義しているが、これを直近6か月に変えてみる
e.g. Bosch Solution
一番重要そうなPrevious Loanの列をそのままApplicationに加える
#49 の派生。
同一グループ内での相対ローン額を計算する際、prevを使ってaugmentationする
credit vs applicationなど、テーブルを跨いだ分が余地ありそう
同種のローンで他の人より延滞が多い=延滞リスクが高い?
返済遅延月にクレジットを借りているなど、特にDPDを起こしている月のアクションに注目
ローンにもいくつかの種類があり、分割回数や金額が似ているものは似た傾向があるかも。
元の次元が小さいので、prevと組み合わせないと効果が薄いかも
applicationにおけるSK_ID_CURR == 208252 (target==0)と、prevにおけるSK_ID_PREV == 2414778 (3回分の支払記録あり、DPD == 0)が同じローンを指している
ある日に複数回分のローンをまとめて支払う場合があるが、これがinstallments_payments上の記録だと
の2通りの記録のされ方がある
bureau-balanceを月度の古い順に並べた時の、STATUSの遷移情報を2-gramのcountで表現する。
金融情勢によってDPDの意味合いが変わるかも
organization_typeかoccupation_typeの同一グループ内での相対値。
pos/credit/bureauそれぞれで実施できる。また、
外部データは使える。
max_bin, num_leaves, colsample
金額のオーダーが近いもののほうが重要度が高い?
#33 と近いアイデア。以下の2つの行動を区別したい。
情報の信頼度に差があるなら、分割したほうが精度が上がるかも
TrainとTestでRevlovingの比率が顕著に異なる。
どの申し込みも直近8年(2922days)分のデータだけ使われているようなので、train/testで集計期間が変わる訳では無い
Bureauはノイズが多いので、**値のほうが効くかも?
新規申し込みするローンが、その人にとって相対的に大きな額かどうか
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.