Python
R
機械学習
MachineLearning
Kaggle
0

0から始めるkaggle超初心者向け入門

はじめに

kaggleって何?」という人が、

  • kaggleがなにかわかる(話が合わせられる)
  • kaggleコンペに参加してみる(ノリ気になる)

ためのお手軽説明です(`・ω・´)

Agenda

  1. kaggleとは?
  2. データ分析のトレンドの変化
  3. kaggleの仕組み
  4. なぜkaggleをやるの?
  5. やってみた(`・ω・´)

1. kaggleとは?

世界最大の機械学習・データ分析のコンペを主催するプラットフォーム

kaggle.png

https://www.kaggle.com

つまり

データサイエンティストの世界最強を決める大会

kaggleの規模

  • ユーザ数: 50万以上
  • 国: 190カ国以上

らしい(`・ω・´)

2. データ分析トレンドの変化

理論(theory)

実践(practice)

  • 理解するのが大事(theory)

  • 実践・役立つのが大事(practice)

実践を重視している具体例

  • kaggle
    • コンペ
    • ノウハウの共有(コード・ディスカッション)
    • データの共有・公開
  • fast.ai
    • deep learning for coders(開発者の深層学習)
    • 理論より実践、SOA(state of art: 最先端)

AI社会による生活の向上

by Andrew Ng (AIや機械学習の有名な教授・教師)

I hope we can build an AI-powered society that gives everyone affordable healthcare, provides every child a personalized education, makes inexpensive self-driving cars available to all, and provides meaningful work for every man and woman. An AI-powered society that improves every person’s life.

andrew.jpeg

https://www.deeplearning.ai/deeplearning-ai-announcing-new-deep-learning-courses-on-coursera/

3. kaggleの仕組み

大まかな流れ

  1. 主催者(企業など)がコンペを主催する
    1. データを準備
    2. 問題を定義する
  2. 参加者は様々な手法を使ってベストなモデルを構築し、予測を提出する => スコアやランキングが分かる
  3. 主催者は、精度が高い予測に賞金を払う

4. kaggleをなんでやるの?

参加者のメリット

  • 様々なデータに触れられる(企業が実データを提供してくれる。レアい)
  • 他の参加者から学べる
  • 入賞すれば賞金 + 良い仕事をGET!
  • 楽しい
  • ギャンブル感覚

主催者側のメリット

  • 世界中のデータサイエンティストが問題解決の手法を試行錯誤してくれる
  • ブランディング・PR
  • データサイエンティストの採用

kaggle依存の副作用(kaggle is drug)

が、しかし

kaggle_addicted.png

コンペが始まると仕事しなくなる人たち

not_work.png

5. 早速kaggleをやってみた(`・ω・´)

1. コンペを選ぶ

competition_list.png

最近始まったばかりのコンペ(`・ω・´)

ga_competition.png

2. コンペの内容を読む

  1. 概要: 大まかに把握
  2. 評価指標: これが一番大事(`・ω・´)
  3. 賞金: できればほしいよね
  4. 期限: 時間厳守
  5. データ: だいたいCSVファイル(BigQueryも)

3. 他の参加者から学ぶ

  1. コード(kernel)
  2. ディスカッション(discussion)

kernels.png

いろんな人がコードを載せてくれてるので助かる

code.png

see: Simple Exploration+Baseline - GA Customer Revenue | Kaggle

4. 他の参加者の方法を真似てみる

コードをパクってローカルPCで実行するだけの簡単なお仕事(`・ω・´)

imitation.png

5. 助け合う <= New!

ちょうどライブラリのバージョンで上手く動作しなかったので、上手くいった方法を教え合う(`・ω・´)

comment.png

6. めんどくさいので人のコードをforkする

fork_original.png

forkしたコードを実行するだけ(`・ω・´)

fork.png

実行中

fork_running.png

7. 予測を提出する

submission.png

8. スコアとランクを確認

689位(全1,031チーム)

ちーん(`・ω・´)

result.png

結局言いたいのは

パクった後が勝負

まとめ

  • kaggleはデータサイエンティストのNo.1を決める大会
  • 理論より実践のトレンド
  • とりあえず人のコードをパクって頑張る
  • kaggleは沼(`・ω・´)

参考資料

おわり(`・ω・´)

ようこそkaggle沼へ