pesuchin / pengle Goto Github PK
View Code? Open in Web Editor NEWmy library for data science competition
License: MIT License
my library for data science competition
License: MIT License
スパイクを見つける目的で利用する。
Owen曰く
GBM only APPROXIMATE interactions and non-linear transformations.
Strong interactions benefit from being explicitly defined.
NNに激しく効くらしいので、NNが使えるようになったら検討
np.log(1+x)
np.sqrt(x+2/3)
値を任意の桁数で切り捨て/切り上げした値を計算する機能
数値としてだけでなくカテゴリカル変数として出力することもできるようにする
以下を機械的に消すための前処理ができるクラスを作成
例: 年齢層(30代前半)とか
outliersをしこしこ処理できないときはrankに変換してしまうための処理を追加したい。
kNNやNNはこの変換が効くらしいので、NNやkNNを使えるようになったあとで良い
scipy.stats.rankdata
メンバ変数の名前がtarget_namesはcolumn名のことを指しているように見えてしまってややこしいのでtarget_unique_valuesに変更
予測値がどうなっているかはみれた方が良さげ
このURLのターゲットエンコーディング手法も理解してから実装https://www.kaggle.com/ogrellier/python-target-encoding-for-categorical-features
Kfoldの際にleakしないように訓練データと検証データを分離してからtarget encodingを行うようにしたい
https://youki2.hatenablog.com/entry/2018/11/09/224818
Testの数値範囲がTrainと結構外れているときにbinで区切って中に入れる
少なくとも1関数1テストは書きたい
特徴量を作成する際にすでに同じ特徴量の作成済みのfetherファイルがあった場合に計算せずにfetherファイルをロードするようにする。
デフォルトでは99%タイルにクリッピングする。
参考
upperbound, lowerbound = np.percentile(x, [1, 99])
y = np.clip(x, upperbound, lowerbound)
この機能は別のリポジトリで良いような気もする。
Confusion matrixのような形式でプロットする機能もあると良い
二軸でプロットする機能
pd.scatter_matrix(df)
4980円の980円的なやつ
4ドルと3.98ドルは人間心理的にぜんぜん違う
EDAをラクにできるようにするための概念を追加。
例えば、EDAPipeLineとかに可視化したい可視化処理を渡せば全部実行してjupyter notebookでプロット・保存してくれるようなやつ
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.