深層学習フレームワークChainerの特徴

深層学習フレームワーク
Chainerの特徴
（株）Preferred Infrastructure
海野　裕也
2016/03/17 
第5回産総研人工知能セミナー「深層学習フレームワーク」

⾃自⼰己紹介
海野裕也
l  -2008 東⼤大情報理理⼯工修⼠士
l  ⾃自然⾔言語処理理
l  2008-2011 ⽇日本アイ・ビー・エム（株）東京基礎研
l  テキストマイニング、⾃自然⾔言語処理理の研究開発
l  2011...

CuPy
Chainerの構成
4
CPU NVIDIA GPU
CUDA
cuDNN
BLAS
NumPy
Chainer

直感的な深層学習フレームワーク
Chainer
5

ニューラルネット
l  値が伝播していく有向グラフ
l  エッジで重みをかけて、ノードに⼊入るところで⾜足し
込み、ノードの中で⾮非線形変換する
l  全体としては巨⼤大で複雑な関数を表す
6

ニューラルネット＝合成関数
l  ベクトルに対して線形・⾮非線形な関数をたくさん適
⽤用する合成関数と捉えるとよい
l  各ノードはベクトルを保持する変数
7
y = h(g(f(x)))

計算グラフの例例
z = x ** 2 + 2 * x * y + y
8
x
y
_ **
2
2 * _ _ * _ _ + _ z
_ + _

誤差逆伝播によって勾配を計算できるのが重要
l  誤差逆伝播は連鎖律律をつかって勾配を計算する
l  計算グラフと順伝播時の変数の値があれば計算可能
l  ニューラルネットのフレームワークはこれを⾃自動で
⾏行行ってくれる
9
y’ =...

機械学習のおさらい
多くの機械学習⼿手法は、
1.  ⽬目的関数の設計
2.  勾配の計算
3.  最⼩小化のための反復復計算
からなる
10
先ほどの計算は
ここに使う

機械学習の例例：分類学習のアルゴリズム
l  ⽬目的関数をパラメータwで微分した値（勾配）
を計算する⽅方法を⽤用意する
l  wを勾配の⽅方向に少しだけ動かす、を繰り返す
l  実際は更更新⽅方向の取り⽅方に⼯工夫が他数ある
11
i...

ニューラルネットの学習⽅方法
1.  ⽬目的関数の設計
l  計算グラフを⾃自分で設計する
2.  勾配の計算
l  誤差逆伝播で機械的に計算できる
3.  最⼩小化のための反復復計算
l  勾配を使って反復復更更新する
12
１さえ設...

深層学習フレームワークの構成要素
l  いずれも似たような構成要素からなる
l  テンソルデータ構造
l  レイヤー（関数）
l  ネットワーク（計算グラフ）
l  最適化ルーチン
l  フレームワークによってこれらの設計指針や抽
...

深層学習フレームワークの⽐比較ポイント
l  計算グラフをどう作るか？
l  GPUで計算できるか？
l  複数GPUで計算できるか？
l  複数ノードで計算できるか？
l  何の⾔言語で出来ているか？
14
Chainerはここに...

計算グラフの作成戦略略
define-and-runとdefine-by-run
l  define-and-run
l  まず計算グラフを構築し、構築した計算グラフに
データを流流すという、2ステップから成る
l  ほとんどのフレームワ...

⼀一般的なDeepLearningフレームワーク（define-
and-run）
1.  まず計算グラフを「構築」する処理理を書く
2.  変数の部分にデータを「流流す」処理理を書く
16
x
y
_ **
2
2 * _ _ * _ _ ...

計算グラフがデータに依存する例例が扱いにくい
l  データごとにネットワークの構造が変わってし
まう⼿手法も多数存在
l  特に、ここ数年年でRecurrent Network系の研究
が増えてきている
17
Recurrent Net ...

define-and-runで構造を扱う⽅方法
l  データにごとに挙動の変わるノードをつくる
l  例例えばループを表現するTheanoのscan関数
l  計算グラフ中に新たなプログラミング⾔言語を作って
いるイメージ
l  複数の...

Chainerの特徴：define-by-run
l  前向き計算をしながら毎回グラフを構築する
l  グラフが毎データで違っても良良い
l  RNNはfor⽂文でループをそのまま書けば良良い
l  特殊なノードは必要ない
19
x
...

擬似コードで⽐比較する
define-and-run
# 構築
x = Variable(‘x’)
y = Variable(‘y’)
z = x + 2 * y
# 評価
for xi, yi in data:
eval(z, x=xi, y...

計算グラフで⽐比較する
21
s = 0
for x in [1, 2, 3]:
s += x
s
x
+
x
+
x
+ ss
x
+ s
define-and-runで
ループを作る
define-by-runでは
すべて展開される

インタプリタとコンパイラのアナロジー
l  define-and-runはコンパイラ
l  計算⼿手順をグラフの形にそのまま変換する
l  ループなどの制御構⽂文相当のノードがそのまま残る
l  define-by-runはインタプリタ...

なぜ、⾃自由度度の⾼高いフレームワークが必要か？
深層学習とは階層の深いニューラルネットのことだけでは
なくなってきている
l  深いボルツマンマシン
l  深い畳込みニューラルネットワーク
l  再帰ニューラルネットワーク
l  双⽅...

計算グラフ構造がデータごとに異異なる例例 [⼩小林林+16]
l  ⽂文中の同⼀一の固有表現の出現ごとに、Bi-RNNでエン
コードして、max-pooling
l  固有表現の出現パターンはデータごとに全く異異なる
24

define-by-runは何が良良いか？
l  任意の構造を構築できる
l  Recurrentはforループを、Recursiveは再帰呼び出し
でそのまま書ける
l  バグの箇所がわかりやすい
l  前向き計算のバグはPython...

define-by-runのデメリット
l  計算グラフの構築コストが⼤大きい
l  毎計算ごとにグラフを構築する
l  ループは展開される
l  最適化をかけづらい
l  2つの演算をまとめたような演算に変換できない
26
演算単...

Chainerを使う場合
l  Pythonのインストール
l  pipのインストール
l  CUDAのインストール
l  pip install chainer
27

NNフレームワークの現在・今後の課題
l  メモリ使⽤用量量の削減
l  ニューラルネットの学習はメモリを⼤大量量に消費する
l  ⼀一⽅方でGPUのメモリは⼩小さい
l  マルチGPU・マルチノード
l  ⾃自動で最適化しないと使っ...

Chainerのまとめ
l  NNフレームワークは誤差逆伝播を⾃自動でやって
くれる
l  計算グラフ構築の2つの⽅方法論論
l  define-and-runが主流流で、最適化をしやすい
l  Chainerはdefine-by-ru...

CUDAによる⾏行行列列ライブラリCuPy
30

CuPyとは何か？
NumPy互換インターフェースの
CUDA実装の⾏行行列列ライブラリ
31
Pythonの⾏行行列列ライブラリ
NVIDIA GPUの開発環境とライブラリ

既存のライブラリと
同じインターフェースで
GPUの⾼高速性を⼿手に⼊入れられる
32

CuPyとNumPyの⽐比較
import numpy
x = numpy.array([1,2,3], numpy.float32)
y = x * x
s = numpy.sum(y)
print(s)
import cupy
x = cu...

CuPyはどのくらい早いの？
l  状況しだいですが、最⼤大数⼗十倍程度度速くなります
def test(xp):
a = xp.arange(1000000).reshape(1000, -1)
return a.T * 2
test(nu...

なぜCuPyが求められるのか？
l  GPUを使った応⽤用研究では、必
要な知識識が以前より増えた
l  GPU⾃自体が複雑
l  GPUを効率率率的に扱うアルゴリズム
も複雑
l  使わないと効率率率で勝てない
l  GPUを効率率...

裏裏の仕組み
l  CUDA⽤用ソースを⾃自動⽣生成してコンパイラが⾛走る
l  ⽣生成されたバイナリをGPUに⾃自動的に転送・実⾏行行する
l  ビルド結果はキャッシュされるので２回⽬目移⾏行行⾼高速
36
スタブ
スタブ
実処理理
...

CUDA関連ライブラリの利利⽤用
l  NVIDIAはCUDA⽤用のライブラリを提供している
l  CUPYはこれらのライブラリを内部で利利⽤用する
l  cuBLAS、cuDNN
l  例例えば内積計算すれば、勝⼿手に効率率率のよいc...

⾃自分でコードを書きたい時
例例：z[i] = x[i] + 2 * y[i] を書きたい
38
引数の型: “float32 x, float32 y”
戻り値の型: “float32 z”
処理理: “z = x + 2 * y;”
ルー...

Elementwiseカーネルの実体
l  Pythonの⽂文字列列テンプレートを使って⽣生成
39
${preamble}
extern "C" __global__ void ${name}(${params})
{
${loop_pr...

できる処理理
l  Elementwise
l  各次元に対して同じ処理理をおこなう
l  zi = f(xi, yi, …) for all i
l  Reduction
l  全次元をマージする
l  z = f(f(… f(x...

型を汎⽤用にしたい
例例：z[i] = x[i] + 2 * y[i] をint/float対応にしたい
41
引数の型: “T x, T y”
戻り値の型: “T z”
処理理: “z = x + 2 * y;”
渡された配列列の型に応じて...

型解決の仕組み
l  基本的にNumPyの型規則に準拠
l  例例えばint32 + float32はfloat64になるなど、
NumPyの仕様が決まっている
l  NumPyのバグ（？）も再現
l  渡された型ごとにコードを⾃自動⽣...

チューニングの⽅方法
l  CUDAのツールがそのまま使える
l  NVIDIA Visual Profiler (nvvp)やnvprofコマンド
l  CPU⽤用のプロファイラではGPUのボトルネックがわ
からないので注意
l  詳...

深層学習以外にも利利⽤用できる
l  既存のNumPyコードがほぼそのまま動く
l  既存の解析⼿手法がそのままCUDA上で動く
l  NumPyのベクトルデータとの変換は1⾏行行
44

CuPyの問題点
l  細かい単位の関数呼び出しが多くなる
l  GPUの帯域律律速になってしまう
l  関数合成の仕組みが必要
l  ⾮非同期呼び出しとメモリプールの相性が悪い
l  現在は⼀一つのストリームのみ使っている
l  ...

全体のまとめ
l  Chainerは⾃自由度度が⾼高い
l  NNフレームワークは誤差逆伝播をやってくれる
l  Chainerのdefine-by-runは⾃自由にネットワークを構築
できる
l  メモリ、マルチノード、ミニバッチが今...

深層学習フレームワークChainerの特徴

Yuya Unno

深層学習フレームワークChainerの特徴