KDD読み会2014 発表資料

Efficient Mini-batch Training for Stochastic Optimization @ KDD2014読み会関西会場京大石井研 M2 小山田創哲 @sotetsuk

SGDと最近の傾向ビッグデータと計算機性能の向上を背景に膨大なパラメータ数の識別器を，大量のデータで SGD(Stochastic Gradient Descent) によって学習する場面が目立つ例えば Deep learning [Taigman et al., 2014] [Le et al., 2012] [Szegedy et al., 2014]

SGD Stochastic Gradient Descent 【問題】次のコスト関数の最小化をしたい Ex. 【SGD】次のように逐次的に最適化

MSGD Mini-batch SGD

Distributed implementation 応用上，パラメータ数やサンプルサイズが膨大な場面では，分散処理が行われる．【問題点】更新式の実行毎にコミュニケーションコストが発生するコミュニケーションの回数を減らして，たくさんのデータをみるため，batch size を大きくしたい

MSGDのトレードオフコミュニケーションコストを減らして，たくさんデータをみるため，batch sizeを大きくしたいが， batch sizeを大きくしすぎると，たくさんのデータをみても，なかなか学習が進まなくなる． n コスト関数が凸な場合について，理論的に収束が遅くなることが示される [Dekel et al., 2012]

提案手法 Batch sizeを大きくしても学習が遅くならない MSGDを提案基本アイディア: Mini-batch毎の一回の更新の質を向上させる各mini-batchにおけるパラメータの更新を正則化項を含むコスト関数の最小化問題の近似だと捉える（次で説明）

提案手法の基本アイディア Mini-batch毎の一回の更新の質を向上させるはと等価．さらにこれを［］の中をwで微分して0とおくと… の一次近似とみなす．これをMini-batch毎に解く． Mini-batch毎の更新を正則化項を含むコスト関数の最小化問題（部分問題）へと発想を逆転させる

EMSO（提案手法）各mini-batch毎に定義される部分問題をまた勾配法で解く n EMSO-GD n Gradient Descentで解く n EMSO-CD n Coordinate Descentで解く h"p://en.wikipedia.org/

並列計算でのEMSO Mini-batchのデータを分割して，それぞれについてをEMSO-GDまたはCDで並列に計算し，それらの平均をとって更新する

数値実験 n データセット n KDD04 n URL n CTR n モデル n Logistic regressionによる2値分類

単一ノードでの結果 URLデータセット EMSO-CD が10倍早いすべて10^7サンプル学習後 Batch sizeは各手法毎に最適なものを使用

複数ノードでの結果単一ノードの時と同じく EMSO-CDが10倍早いノード数を変えた時 EMSO-CDのコストが特定の値まで下がるまでに要した時間の比較

総括【手法】 Mini-batch毎の更新を，正則化項を含むコスト関数の最適化問題で置き換え，より繊細に更新を行うことによって，batch-sizeを大きくしても学習が遅くならない手法を提案している【理論】凸なコスト関数を仮定した場合，bが大きい時の収束速度の改善が証明されている（今回触れず）【数値実験】二値分類Logistic regressionにおける数値実験でEMSO-CDが他の手法より高い性能を示した

KDD読み会2014 発表資料

by Sotetsu Koyamada

on Sep 23, 2014

Statistics

Views

Actions

0 Embeds 0

Accessibility

Categories

Upload Details

Usage Rights

Report content

KDD読み会2014 発表資料 Presentation Transcript