Kaggle

Kaggleコンペ(Instant Gratification)

今日からInstant Gratificationコンペに参加します。
https://www.kaggle.com/c/instant-gratification/

【コンペ名】
Instant Gratification

【データの説明】
匿名データの二値分類

【コード】

まずは、訓練データとテストデータのサイズを確認します。

つぎに、訓練データに注目し、データフレームの先頭5行分確認します

カラム名が匿名なため、データの意味は不明

次は、分類の目的変数であるtargetの個数を確認する。

“0”,”1″ラベルの個数は両方ともだいたい同じであるようだ。

次は、欠損値の確認。

欠損値はないことがわかった。

各説明変数の分布はどうなっているか確認する。

256個のグラフが出力されるが、数が多すぎるので、その中の一部を示す。

上の4つのグラフのうち、右から2番目のwheezy-copper-turtie-magicという変数の分布は他のグラフと比べて形が大きく異なる。
実は、この変数以外の255個の変数はだいだい0周辺に値が集中している分布だ。
target=0とtarget=1との分布の違いは見られなかった。