これからのコンピューティングの変化とJava-JJUG CCC 2015 Fall

これからの
コンピューティングの変化と
Java
2015/11/28 きしだなおき

自己紹介
● 最近ガッチャマンクラウズを見ました。
● 現在刀語を見ています。(現在9話/12話中)

今日の話
● ハードウェアが変わっていく
● Javaも変わらないとね

最近こんな経験ありますか？
● サーバーが遅いから速いCPUが載ったマシンに
買い換えよう

● サーバーが遅いからサーバーを増やそう

● サーバーが遅いからデータベースをメモリに
キャッシュしよう

処理を速くするには
● 並列度をあげる
● より近いところにデータを置く

ムーアの法則
● 18ヶ月(or24ヶ月)でトランジスタの数が倍に
なる
● 寸法半減→スピード2倍、消費電力1/4
https://en.wikipedia.org/wiki/Moore's_law

ムーアの法則の終焉
● 物理的に配置できない
– 5nm=水素原子50個分
● 電子が漏洩する
● 歩留まりがあがらない
– 製造コスト増

微細化が進んでも今までとは違う
● コストが下がらない
● 低消費電力と高速化を同時に実現できない

データ・セントリック・システム
● データの移動に電力や時間が食われている
– ストレージ→メインメモリ→キャッシュメモリ
● データの移動を減らす必要がある
● データの近くで処理を行う
● 処理を行うのはCPUだけではなくなる
● いろいろ...

コンピュータの種類
● ノイマン型アーキテクチャ
● 非ノイマン型アーキテクチャ

ノイマン型アーキテクチャ
● メモリから命令をよびだして、命令にしたがっ
た回路で処理を行う
● CPU
● GPU

CPU
● 高機能・高性能・高粒度
● 割り込み、権限制御、仮想化、など実行以外の機能
● OSが実行できる
● 演算器はコアあたり10個程度
– 一チップに100個程度
● 明示的にメモリを制御できない
– いかにキャッシュに載せるか
= い...

GPU
● GPU
– ちょうたくさんコアがある
– 同じ処理を行う
– 行列計算に向いてる
● GTX 970
– 1664コア！
– 衝動買い！

GPUの構成
● いくつかのコアでグループを作る
– 同時に同じ命令を実行する
– グループだけからアクセスできるメモリをもつ
● コアのグループが多数ある
● コアあたり数個の演算器
– 数千から数万の演算器

非ノイマン型アーキテクチャ
● ノイマン型じゃないコンピュータ全体
– FPGA
– ニューラルネット型コンピュータ
– 量子コンピュータ

FPGA
● Field Programmable Gate Array
– Field 現場で
– Programmable プログラム可能な
– Gate 論理素子が
– Array いっぱい並んだやつ
● 現場でプログラムできる論理回路

回路の入出力の組み合わせ
入力出力
000 0
100 0
010 0
110 1
001 1
101 1
011 1
111 1

LUT(LookUp Table)
● 入出力をあらかじめメモリにもっておく
● 製品としては4入力LUTや6入力LUT
入力出力
000 0
100 0
010 0
110 1
001 1
101 1
011 1
111 1

論理ブロック
● Logical Element(LE) Altera
● Logical Cell(LC) Xilinx

配線
● 論理ブロックが格子状に配置
● 周囲に配線
● アイランドスタイル

乗算回路とメモリ
● 乗算やメモリを論理ブロックの組み合わせで
実現すると効率がわるい
● 乗算回路やメモリ(SRAM)がのってる
– 演算器は数百から数千

FPGAなら
● 命令を読み込む必要なく、回路をやりたい処
理のとおり並べることができる

FPGAの利点
● 命令を読み込む必要がない
– 処理を行うまでのタイムラグが少ない
● 低レイテンシ
– 命令解析のための回路が不要
● 余分な回路がないので低消費電力
● 細かな並列化

Javaでいろいろやってみる
● JavaでCPU(並列)
● JavaでGPU
● JavaでFPGA

JavaでCPU(並列)
● Stream
int elementCount = 1_444_477;
float[] inputA = new float[elementCount];
float[] inputB = new float[e...

JavaでGPU
● Aparapi
– JavaコードをOpenCLに変換
● OpenCLを呼び出す
– OpenCL:並列計算フレームワーク
● AMD始め、IntelやNVIDIAなどが参加
– JOCL(jogamp.org)
– J...

Aparapi
● A PARalell API
● 実行時にJavaコードをOpenCLに変換
● https://code.google.com/p/aparapi/

Aparapiコード
public class AparapiKernel extends Kernel{
float[] inputA;
float[] inputB;
float[] output;
@Override
public voi...

JOCL(jogamp.org)
● OpenCLを薄くラップ
● https://jogamp.org/jocl/www/

JOCLのコード
String KERNEL_CODE =
"kernel void add(global const float* inputA,"
+ " global const float* inputB,"
+ " global fl...

比較
● Aparapi
– めちゃ楽
– GPUの性能出しにくい
● JOCL
– ちょっと面倒
– GPUの性能出しやすい

ところでディープラーニング
実装してみました
※正しく動くようになったとは言ってない

ディープラーニング
● 階層の深いニューラルネット
● 最近、人工知能っていわれてるのは、ほぼこれ

Aparapiを使う
● 15枚/分→90枚/分
● 1400万枚の画像処理が600日→100日！

JOCLを使う
● 90枚/分→298枚/分
● 1400万枚の画像処理が100日→34日！

GPUローカルメモリを使う
● 298枚/分→300枚/分
● 1400万枚の画像処理が34日→33日

GPUでの結果
● 90枚/分→300枚/分
● 1400万枚の画像処理が100日→33日
● 67日はデータの移動だけに電気代を払うこと
になっていた！

FPGAでやったら？
● Microsoftの実装
– GPUの半分のスループット
– 1/10の消費電力
– 電力あたりの性能は3倍
– http://techon.nikkeibp.co.jp/article/MAG/20150311/40...

Sumatra
● Java VMに組み込むことを目標
● 実装難しそう
● コード書くのもわかりにくそう
● 性能出しにくそう
● Java VMに組み込むほどメリットなさそう
– 性能欲しい人はOpenCL使うよね

と思ったら
● 「Sumatra is not in active development for
now.(2015/5/1) 」
http://mail.openjdk.java.net/pipermail/sumatra-dev/2015...

JavaでFPGA
● Synthesijer
– JavaコードからVHDL/VerirogHDLを生成

Synthesijer
● みよしさんが作ってるオープンソース
http://synthesijer.github.io/web/
public class Test {
public boolean flag;
private int cou...

Synthesijerが出力したコード
module Test
(
input clk,
input reset,
input flag_in,
input flag_we,
output flag_out,
output run_busy,
...

Javaでもいろいろできる
でも今のままで足りるの？

足りない
● オブジェクトのメモリ効率が悪い
● さまざまなアーキテクチャに対応した値が扱えない
– 256bit整数型、float x 4型(SIMD命令用)
● 高機能データ構造がメモリにやさしくない
– Genericsが基本型を扱えない...

そこでUnsafeですよ
● sun.misc.Unsafe

Unsafe
利用例 Unsafe
並列化プリミティブ Unsafe.compareAndSwap*
シリアライズ Unsafe.allocateInstance
メモリ管理 Unsafe.allocate/freeMemory
JVM外とのや...

Unsafeを利用している製品
● Cassandra/Ehcache/HBase/Hadoop
Hibernate/JRuby/Netty/Scala/Spring...

Unsafeの廃止
● Java 9でメンテナンス停止
● Java $N-1で完全置き換え、Deprecate
● Java $Nで廃止

Unsafeの代替
利用例代替
並列化プリミティブ JEP 193 Variable Handles
シリアライズ JEP 187 Serialization
メモリ管理 Project Panama
Project Valhalla
Arr...

Project Valhalla
● Value Type
● Specialization

Value Type
● ユーザー定義基本型
● Codes like a class, works like an int!

Pointクラス
class Point{
final int x;
final int y;
}

Pointクラスの配列の効率化

ValueType版Point
value class Point{
final int x;
final int y;
}

Java8の美しくないクラス
● StreamとIntStream
– IntStream extends Stream<int>ってやりたい
– そもそも捨てたい
● OptionalとOptionalInt
– OptionalInt ex...

ValueType対応
● それぞれのValueTypeにあわせたコレクショ
ンを作るのは無理

Genericなクラス
class Box<T>{
T value;
Box(T v){
value = v;
}
T getValue(){
return T;
}
}

現在のコンパイル結果
class Box{
Object value;
Box(Object v){
value = v;
}
Object getValue(){
return value;
}
}

Specialize可能なクラス
class Box<any T>{
T value;
Box(T v){
value = v;
}
T getValue(){
return T;
}
}

Specialize対応のコンパイル結果
class Box{
Object*T value;
Box(Object*T v){
value = v;
}
Object*T getValue(){
return value;
}
}

Box<int>の場合
class Box${T=int}{
int value;
Box(int v){
value = v;
}
int getValue(){
return value;
}
}

Name Mangling
● 名前修飾
● Javaの入れ子クラス
– Hoge$Foo
● Specializedなクラス
– Box${T=I}

条件付きメソッド
class Box<T>{
T value;
T<int> getTwice(){
return value * 2;
}
}

Foo<?>をどうするか
● Bar<any T> <: Foo<?> なら
● こうなってほしい
– Foo<int> <: Foo<?>
– Bar<int> <: Foo<int>

anyとref
● Foo<any>
– intでもObjectでも
● Foo<ref>
– いままでのFoo<?>と同じ

可視性
● Foo<Object>からFoo<int>のprivateメンバを
使いたい
● ソース上は同じクラス
● 実際はspecializeされた
別クラス
● privateメソッドが呼べない！
● JavaVM助けて！
class X...

配列
● Object[]とint[]は違う
● Arrays2.0さん助けて！

問題点
● Foo<int>とFoo<String>は共通の基底クラス
をもたない別クラス
● Specializedなクラスをいつ生成するか
– classDynamicはVM実装が複雑になる
● Java VMさん助けて！

Javaのバイトコード
● aload/iload/lload/fload/dload
● astore/istore/lstore/fstore/dstore
● areturn/ireturn/lreturn/freturn/dreturn

演算のバイトコード
● iadd/isub/imul/idiv
● ladd/lsub/lmul/ldiv
● dadd/dsub/dmul/ddiv
● fadd/fsub/fmul/fdiv

バイトコードの統一
● 型をもったまま汎用の構文
● 新しい型を自然に拡張できる
● vload/vstore/vreturn
● vadd/vsub/vmul/vdiv

既存コードは省略形
● iload → vload :I
● daload → vaload :D
– さらにinvokeinterface Array.getElementの略に
できるかも！

Arrays 2.0
● 配列をインターフェイスに！
public interface Array<any X extends Ordinal, any E> {
X arrayLength();
E getElement(X n);
void...

バイトコードレベルの
Specialization不要

という夢をみました
● Java VM Language Summit 2015
http://www.oracle.com/technetwork/java/javase/community/jlssessions-2015-2633029....

まとめ
● コンピュータは変わる
● Javaも変わる
● あんたはどうだい？

これからのコンピューティングの変化とJava-JJUG CCC 2015 Fall

なおききしだ