(cache) Google Cloud Platform Japan 公式ブログ: Google の Tensor Processing Unit (TPU) で機械学習が 30 倍速くなるメカニズム

Google の Tensor Processing Unit (TPU) で機械学習が 30 倍速くなるメカニズム

2017年5月13日土曜日

* この投稿は米国時間 5 月 12 日に投稿されたもの（投稿はこちら）の抄訳です。

Posted by
佐藤一憲, Staff Developer Advocate, Google Cloud
Cliff Young, Software Engineer, Google Brain
David Patterson, Distinguished Engineer, Google Brain

Google の Tensor Processing Unit (TPU) が搭載された回路基板（左）と、
Google データセンターに導入された TPU（右）

初めて紹介詳細に解説した論文 TPU が生まれるまでASICMIPSプロセッサ「TPU の開発はおそろしいスピードで進んで行きました。最初は回路設計エンジニア、その後は検証エンジニアと、エンジニアの採用とチップ開発を並行して進めていく忙しさです。しかし最初にできあがったチップ（ファーストシリコン）はまったく何の問題もなく動きました」
（First in-depth look at Google's TPU architecture, The Next Platform より）ニューラルネットワークの推論演算

TensorFlow Playground で二重らせん問題を解く（ここをクリックして試せます）

この記事推論

入力データ x と、ニューロン間の接続の強弱を表すパラメータ w の間の乗算（multiply）

乗算結果を加算（add）ニューロンの状態をひとつの値に集約する

ReLU、Sigmoid、tanh などの活性化関数（activation function）を適用し、ニューロンのふるまいをコントロールする

ニューラルネットワークの推論では、入力データにパラメータをかけ合わせ、
その合計に活性化関数を適用する

行列積

NN の種類	NN の層の数	パラメータの数	導入規模
MLP0	5	20M	61%
MLP1	4	5M	61%
LSTM0	58	52M	29%
LSTM1	56	34M	29%
CNN0	16	8M	5%
CNN1	89	100M	5%

Multi Layer PerceptronLong Short-Term MemoryConvolutional Neural Network量子化ニューラルネットワークの量子化8-bit の整数演算How to Quantize Neural Networks with TensorFlow

Screen Shot 2017-04-22 at 3.32.22 PM.png

TensorFlow での量子化サポート

Inception1/4 の 23 MB25 倍 RISC と CISC と TPU の命令セットプログラマブルであることReduced Instruction Set Computer (RISC)Complex Instruction Set Computer (CISC)

Screen Shot 2017-04-07 at 7.48.29 AM.png

TPU Block Diagram

Matrix Multiplier Unit (MXU)：行列演算用の 65,536 個の 8-bit 積和演算器

Unified Buffer (UB): 24MB SRAM レジスタ

Activation Unit (AU): ハードウェアで実装された活性化関数

TPU 命令

機能

Read_Host_Memory

メモリからのデータ読み込み

Read_Weights

メモリからのパラメータ読み込み

MatrixMultiply/Convolve

データとパラメータ間の乗算と畳込み、および結果の加算

Activate

活性化関数の適用

Write_Host_Memory

メモリへの結果の書き込み

「全結合 NNや畳み込み NN などいろいろな種類がありますが、要するに NN の計算とは様々なサイズの行列演算の集まりです。たくさんの乗算と加算の結果を活性化関数へと流し込むことで、たくさんの線形演算の積み重ねから非線形なふるまいを得る。これが NN の本質であり、TPU のアーキテクチャはそれをハードウェアで表現したものです」（First in-depth look at Google's TPU architecture, the Next Platform より）

Screen Shot 2017-04-28 at 6.35.24 PM.png

TensorFlow から TPU を呼び出すソフトウェアスタック

Matrix Multiplier Unit による大規模並列処理スカラプロセッサベクタプロセッサSSEAVX

Screen Shot 2017-04-15 at 11.44.06 AM.png

マトリックスプロセッサ

マトリックスプロセッサによる行列演算は、
文字単位や行単位ではなくページ単位で文章を印刷するようなもの

TPU の心臓部、シストリックアレイシストリックアレイプログラムコードALUレジスタ

Screen Shot 2017-04-27 at 11.38.05 PM.png

CPU や GPU では演算ごとにレジスタ読み書きが発生し、電力を消費する。
シストリックアレイでは多数の ALU 間を直接結ぶため、レジスタ読み書きは 1 回で済む

シストリックアレイによる入力データ（ベクタ）とパラメータ行列間の乗算

シストリックアレイによる入力データ（行列）とパラメータ行列間の乗算

65,536 回12

TPU の Matrix Multiplier Unit (MXU)

1 サイクルあたりの演算回数

CPU

1〜2 回

CPU（ベクタ演算拡張）

数 10 回

GPU

数万回

TPU

10 数万回（最大 12.8 万回）

MatrixMultiply83 倍29 倍

Screen Shot 2017-05-10 at 8.35.37 AM.png

一般的な CPU や GPU と比較した TPU の電力性能比
（ログスケール、差分、加重平均）

「7 ms」のためのミニマル設計TPU の論文「CPU や GPU は、現代の汎用プロセッサに必要とされる様々な機能を実装する複雑なアーキテクチャを備えます。例えば、キャッシュ、分岐予測、アウトオブオーダー実行、マルチスレッド、投機プリフェッチ、アドレス計算、コンテキストスイッチ等々。これらの機構のために多くのトランジスタと電力が費やされていますが、いずれもプロセッサの平均性能を改善するだけで、99パーセンタイルの性能（＝性能のばらつきの低さ）の改善にはあまり寄与しません。TPU はシングルスレッド動作の特定用途向けプロセッサであり、これらの機構をすべて廃したミニマルな設計による多大なメリットが得られます」（8ページ）NN の推論