KDD読み会2014 発表資料
Upcoming SlideShare
Loading in...5
×
 

KDD読み会2014 発表資料

on

  • 29 views

Efficient Mini-batch Training for Stochastic Optimization

Efficient Mini-batch Training for Stochastic Optimization

Statistics

Views

Total Views
29
Views on SlideShare
29
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

KDD読み会2014 発表資料 KDD読み会2014 発表資料 Presentation Transcript

  • Efficient Mini-batch Training for Stochastic Optimization @ KDD2014読み会 関西会場 京大石井研 M2 小山田創哲 @sotetsuk
  • SGDと最近の傾向 ビッグデータと計算機性能の向上を背景に 膨大なパラメータ数の識別器を,大量のデータで SGD(Stochastic Gradient Descent) によって学習する場面が目立つ 例えば Deep learning [Taigman et al., 2014] [Le et al., 2012] [Szegedy et al., 2014]
  • SGD Stochastic Gradient Descent 【問題】次のコスト関数の最小化をしたい Ex. 【SGD】次のように逐次的に最適化
  • MSGD Mini-batch SGD
  • Distributed implementation 応用上,パラメータ数やサンプルサイズが 膨大な場面では,分散処理が行われる. 【問題点】更新式の実行毎にコミュニケー ションコストが発生する コミュニケーションの回数を減らして, たくさんのデータをみるため,batch size を大きくしたい
  • MSGDのトレードオフ コミュニケーションコストを減らして,たくさん データをみるため,batch sizeを大きくしたいが, batch sizeを大きくしすぎると,たくさんのデー タをみても,なかなか学習が進まなくなる. n コスト関数が凸な場合について,理論的に収束 が遅くなることが示される [Dekel et al., 2012]
  • 提案手法 Batch sizeを大きくしても学習が遅くならない MSGDを提案 基本アイディア: Mini-batch毎の一回の更新の質を向上させる 各mini-batchにおけるパラメータの更新を 正則化項を含むコスト関数の最小化問題の近似 だと捉える(次で説明)
  • 提案手法の基本アイディア Mini-batch毎の一回の更新の質を向上させる は と等価.さらにこれを [ ]の中をwで微分 して0とおくと… の一次近似とみなす.これをMini-batch毎に解く. Mini-batch毎の更新を正則化項を含むコスト関数の最小化問題 (部分問題)へと発想を逆転させる
  • EMSO(提案手法) 各mini-batch毎に定義される部分問題を また勾配法で解く n EMSO-GD n Gradient Descentで解く n EMSO-CD n Coordinate Descentで解く h"p://en.wikipedia.org/
  • 並列計算でのEMSO Mini-batchのデータを分割して, それぞれについて をEMSO-GDまたはCDで 並列に計算し,それらの平均をとって更新する
  • 数値実験 n データセット n KDD04 n URL n CTR n モデル n Logistic regressionによる2値分類
  • 単一ノードでの結果 URLデータセット EMSO-CD が10倍早い すべて10^7サンプル学習後 Batch sizeは各手法 毎に最適なものを使用
  • 複数ノードでの結果 単一ノードの時と同じく EMSO-CDが10倍早い ノード数を変えた時 EMSO-CDのコストが 特定の値まで下がるまでに 要した時間の比較
  • 総括 【手法】 Mini-batch毎の更新を,正則化項を含むコス ト関数の最適化問題で置き換え,より繊細に更新を 行うことによって,batch-sizeを大きくしても 学習が遅くならない手法を提案している 【理論】 凸なコスト関数を仮定した場合,bが大きい時の収 束速度の改善が証明されている(今回触れず) 【数値実験】 二値分類Logistic regressionにおける数値実 験でEMSO-CDが他の手法より高い性能を示した