(cache) STMの設計と進化

Slide 1

STMの設計と進化 @kumagi 熊崎宏樹聴講者想定レベル：Java初級者

Slide 2

最初にこのスライドは後で全部アップロードしますその為、論文名などのメモ取りは不要です 120ページほどありますが25分で話せる気がしません懇親会などで質問してください

Slide 3

Why STM? ロックを使ったプログラムはそもそもエンバグしがち再利用が難しいマルチコアを生かしにくいそれ、Software Transactional Memoryで解決できるよ！

Slide 4

トランザクションとは？複数の手続きをまとめて一つの不可分な手続きとして扱う事データベースの世界ではACID特性という用語がよく一緒に用いられる Atomic: 手続き全体がAll-or-Nothingとなる Consistency: トランザクション前後でデータに整合性が取れている Isolation: コミットしていないトランザクションによる作用は外から観測できない Durability: コミットした結果は永続化される

Slide 5

基礎知識 Compare And Swap関数 sun.misc.Unsafe.compareAndSwapInt等で使える指定したメモリ番地に対して指定した値Aと等しいかを比較比較した結果一致したら値Bをそのメモリ番地に書く成功したらTrue、失敗したらFalseを返すの動作をアトミックに行うCPUの命令 x86アーキテクチャだとcmpxchgというニーモニック以後断りなくCAS命令と呼びます

Slide 6

STMの歴史 CPUのキャッシュ制御プロトコルを拡張することでメモリ内でトランザクションが可能じゃん！プログラミングしやすくなっていいよ！ (Mauriceら Transactional Memory: Architectural Support for Lock-Free Data Structures 1993) ソフトウェアでも同じような事が可能だったよ！ (Nirら Software transactional memory 1997)

Slide 7

どう書けるのか？ synchronized { x += 100; y -= 100; } atomic { x += 100; y -= 100; } synchronizedをatomicに書き換えるだけ！これでブロックに囲まれた処理全体が All-or-Nothingになる

Slide 8

どう嬉しいのか？ atomicで囲んだ部分は可能な限り並列して動作する　→　マルチコアの性能を生かせる atomic { x += 100; y -= 100; } atomic { z += 100; w -= 100; } synchronized { x += 100; y -= 100; } synchronized { z += 100; w -= 100; } 並列実行可能！ロック競合…

Slide 9

どう嬉しいのか？操作を組み合わせ可能トランザクション中で他のトランザクションを実行 STMを使ったコードを簡単に再利用可能 class BankAccount { ... atomic public void add(int diff) { credit += diff; } private int credit = 0; } 使う BankAccount x; BankAccount y; ... // xからyに100ドル送金 atomic { x.add(-100); y.add(100); }

Slide 10

どう嬉しいのか？（実験1）書きやすい！学生12人を6チームに分けてサーチエンジンを作らせてみた。普通のC++とIntelコンパイラのSTMを使うチームで分けたところSTMのチームの方が高速でシンプルなコードを書いた（Victorら Transactional Memory versus Locks - A comperative Case Study）

Slide 11

どう嬉しいのか？（実験2）書きやすい！学生147人にJavaでゲームを作らせてみた粗粒度ロック・細粒度ロック・STMの3つのスタイルでバグの量を比較 (Christopherら Is Transactional Programming Actually Easier?)

Slide 12

圧倒的に少ないバグ率！

Slide 13

余談：Cliff ClickとRich Hickeyの議論当時Azul SystemsのCTOだったCliff Click氏と、Clojureの作者Rich Hickey氏の有名な議論 Cliff「デッドロックはJavaならスレッドのダンプが簡単に取れるから一番解決しやすいバグでしょ」 Cliff「その点、STM由来のライブロックのデバッグは辛い。発生しているかも気付けない」 Rich「それでもなおComposabilityの一点は評価する価値がある」 Cliff「ふむ…」出典： http://www.azulsystems.com/blog/cliff/2008-05-27-clojure-stms-vs-locks

Slide 14

どう作るのか？非常に原始的なSTMからスタートし、近年の研究を追いかけながら改良していく順で説明言語レイヤーでコンパイラがどうサポートするのかという話は今回のスコープ外 STM内部の設計の進化とは少し違う

Slide 15

スタート地点オブジェクト毎にロックを取り付けるトランザクションはいい感じにロックを取って動いて欲しい class BankAccount { ... synchronized public void add(int diff) { credit += diff; } private int credit = 0; } Javaで普通のロックを使うコードの例

Slide 16

synchronizedではなぜダメか内部で行われるロックを展開してみる synchronizedなメソッドは自動でロックを取る BankAccount x; BankAccount y; ... // xからyに100ドル送金 x.add(-100); y.add(100); BankAccount x; BankAccount y; ... // xからyに100ドル送金 x.lock(); x.add(-100); x.unlock(); ←アンロックしてる y.lock(); y.add(100); y.unlock();

Slide 17

synchronizedではなぜダメかアンロックを行うとなぜ不味いのか // xからyに100ドル送金 x.lock(); x.add(-100); x.unlock(); y.lock(); y.add(100); y.unlock(); この隙間にもし「銀行の全口座の残高の合計を算出する処理」が挟まったら？ 100ドル消失！

Slide 18

どんなロックの取り方がいいのか？さっきの例だけで言えばこういう挙動になって欲しい // xからyに100ドル送金 x.lock(); x.add(-100); y.lock(); y.add(100); x.unlock(); // 最後にアンロック y.unlock(); 2口座間だけではなく、より一般的に言うと？複数のロックの正しい取り方は一般化できるのか？　→　できる

Slide 19

2 Phase Lock

Slide 20

2 Phase Lock 本日覚えて貰いたい用語No.1 2相ロックとも言う「複数のロックを獲得する手続きは、2つのフェーズに分かれるべきだ」というロック利用の作法（プロトコル） 2つのフェーズ（相）とは成長相：ロックを獲得し続ける減退相：ロックを解放し続ける

Slide 21

2 Phase Lock 手続き全体が成長相と減退相の1つずつからなるべし 1 2 獲得しているロックの数時間成長相減退相

Slide 22

2 Phase Lock つまりこれはだめ成長相・減退相が2回以上ある

Slide 23

2 Phase Lock これを用いれば、複数のロックを取る操作が一つの不可分な操作として外部から見えるようになる専門用語を使うと、競合等価直列化可能なスケジュールを作成できる、と言うなぜそうなのかという説明はデータベースの本などを（Concurrency Control and Recovery in Database Systems, Addison Wesley Publishing Company, ISBN 0-201-10715-5）

Slide 24

Serializability 2PLはSerializableな実行を動的に紡ぎ出すシンプルな技法処理Aと処理Bを並行して実行する例処理Aと処理Bの全ての非決定実行のパターン A→Bの実行順と同じ結果に辿り付くパターン B→Aの実行順と同じ結果に辿り付くパターン 2PLが許す実行パターン 2PLが許す実行パターンバグるパターン

Slide 25

2 Phase Lock 利点競合等価直列化可能なスケジュールを動的に組み立てる事ができる欠点競合等価直列化可能よりも広いスケジュールは組み立てれない競合等価直列化可能より広い直列化可能スケジュールとしてビュー等価直列化可能などがあるデッドロックは回避してくれない

Slide 26

2 Phase Lockを用いたSTM オブジェクトにアクセスするときはそのデータのロックを獲得する既にロックを取っているなら何もしないコミットするまでロックを手放さないある程度の時間ロックを獲得できなかったらデッドロックと見なして作業内容を巻き戻す作業を巻き戻せるように元のデータの複製をロック獲得時に作っておく

Slide 27

2 Phase Lockを用いたSTM STMから利用する全部のデータにロックを取り付ける X Y Z X Y Z

Slide 28

Y 2 Phase Lockを用いたSTM トランザクションはロックを獲得したらオブジェクトを手元に複製する(undo-logと言う) X Y Z Transaction1(以後T1) X X' Y'

Slide 29

Y 2 Phase Lockを用いたSTM トランザクションが無事コミットまで辿りついたらロックを開放してバックアップを消去する X Y Z Transaction1(以後T1) X X' Y'

Slide 30

Y 2 Phase Lockを用いたSTM デッドロックした場合にはランダム時間の待機後アボートする X Y Z T1 X X' Y' T2 y→xの順にアクセスしたい x→yの順にアクセスしたい

Slide 31

2 Phase Lockを用いたSTM デッドロックした場合にはランダム時間の待機後アボートする X Y Z T1 X X' Y' T2 Abort! x→yの順にアクセスしたい Y 続行できる！

Slide 32

2 Phase Lockを用いたSTM 今回のSTMの特性を書き並べると Pessimistic Concurrency Control(悲観的ロック) Eager Versioning (commitまで待たずに即書換え) Eager Conflict Detection (実行中のトランザクション同士も即座に衝突) 個々の用語は追って解説します今は聞き流して頂ければ

Slide 33

2 Phase Lockを用いたSTM ACI特性を満たす事ができる Atomic: 全体を実行できなければアボートして書き戻すから大丈夫 Consistency: 2PLのお陰でSerializable Isolation: ロックのお陰で他のトランザクションからはアクセス不能 Durabilityはそもそも揮発性メモリなので考えないでも遅い。たくさん改良の余地があるこれから改良の試みを追ってみる

Slide 34

データの読み出しについてトランザクション中で読み出しにしか使わないデータは複製しても無駄無駄なデータは複製しない事でオーバーヘッドを削減更に言うと、読み出すだけなら複数のスレッドで共有していても良い複数のトランザクションが共有できるロックであるReader-Writer Lockの出番

Slide 35

Reader-Writer-Lock 複数のReaderが衝突しないロック Reader-WriterやWriter-Writerは衝突する 1word幅のメモリを用いた実装例は以下 0 0 Readerの数 Writer 1word read lock 1 0 write lock 0 1 read lock n 0 unlock unlock unlock read lock unlock ※状態遷移はすべてCompare And Swap命令で行う

Slide 36

Read-Write-Lockで本当にいいの？トランザクションって本当に読むだけで終わる時と終わらない時がある残高がマイナスの時に限り利息を取るとかつまりRead-LockからWrite-Lockへの昇格が必要 Read-Lockを取っているスレッドのうち一つがUpgrade可能となるようにプロトコルを設計しようこのUpgrade可能なロックを全部のオブジェクトに取り付ければSTMから便利に使えるはずだ

Slide 37

Upgrade-Lock 1word read lock write lock unlock Upgrade待ち upgrade unlock * n write lock read lock unlock upgrade UpgradeをしたくなったらUpgrade待ちビットを立てて他のすべてのReaderの離脱を待つ Upgrade待ちビットが立ったらそれ以上他のスレッドはLockを取れない unlock unlock ※状態遷移はすべてCompare And Swap命令で行う

Slide 38

Upgrade-Lockを用いたSTM 良さそうに見えるが実は凄く遅い詳細は Bratinらの McRT-STM: A High Performance Software Transactional Memory System for a Multi-Core Runtime なぜならRead-WriteロックはCAS命令を酷使普通のロックならunlockにCAS命令は不要 CAS命令は1回40クロック程度のコストが掛かる競合時は更に遅くなるメモリの書き換えでキャッシュラインが汚れる

Slide 39

解決策：Versioned Lock STM進化の最初のブレークスルーオブジェクトにバージョンを付ければロック無しでも安全に読み出しができる。しかもキャッシュラインも汚れない読みだしたデータはRead-Setとしてバージョン番号と共にスレッドローカルな場所に保持するコミット時にバージョン番号を比較すれば良い

Slide 40

Versioned Lock バージョンのカウントとロックの両方ができるついでにロック保持者のトランザクションディスクリプタへのポインタも保存できる(abortに使える) 更新に成功してアンロックするたびバージョンが増える 1wordでの実現例は以下 versionフラグ lock Pointer to desc unlock ポインタの下位1bitは必ず0 ※状態遷移はすべてCompare And Swap命令で行う

Slide 41

比較比較 Versioned Lockで何ができるか？ Read Snapshotができる値と一緒にバージョン番号を読み出しておく X Y Z v3: 120 v2: 42 v5: 459 v3: 120 v2: 42 v5: 459 単調増加するはずのバージョン番号が変動していないのでこの赤い期間の間にはデータは書き換えられていない t t t 比較

Slide 42

読み出し方に注意ロック無しでデータを読むため読み出し方には注意が必要 int v1 = x.version(); if (v1 & 1 == 0) { abort(); // 既にWriteスレッドが保持している } Object result = x.value; int v2 = x.version(); if (v1 != v2) { abort(); // valueを読んでいる間にWriteされた } return result;

Slide 43

閑話休題：CPUのキャッシュ CPUは高速化のため、メモリの一部を手元に複製している（これをキャッシュと呼ぶ）複製する単位をキャッシュラインと呼ぶ。大きさは64byteぐらい最近のCPUはキャッシュをコア間で共有している共有の際はキャッシュコヒーレントプロトコルを用いる Core1 Core2 L1キャッシュ L1キャッシュ L2キャッシュコヒーレント

Slide 44

キャッシュコヒーレントプロトコル IntelならMESIF、AMDならMOESIというプロトコルキャッシュラインが取る状態名の頭文字が由来 Modified: メモリよりもキャッシュの方が新しい Exclusive: メモリとキャッシュが同一であり、他のコアはこのキャッシュラインを持っていない Shared: メモリとキャッシュが同一であり、他のコアもこのキャッシュラインを複製している Invalid: 正しいキャッシュを持っていないので読むな Owned: 俺がメモリだ(Shared可能なModified) Forward: Sharedのボス。アクセスする際にはこいつに伺え

Slide 45

共有したキャッシュコヒーレントプロトコル MESI(F)プロトコルはModifiedなデータを他のコアが読み出す際にメモリに書き戻す Sharedなデータを書き換える時にはInvalidation要求をブロードキャストするためトラフィックが混む Modified Shared Invalid Exclusive 共有を要求（メモリアクセス発生） Invalidation要求が来た新規に読み出した書き換えた他のコアから貰った

Slide 46

キャッシュを汚す事はギルティ他のスレッドから繰り返し読む値を書き換え続けると、キャッシュラインのステートはModifiedとSharedの間を行ったりきたりすることになる。これは激しいトラフィックを起こす。更にはModifiedからSharedになる度に下層のメモリに書き込まなくてはならない Core1 Core2 L1キャッシュ L1キャッシュ L2キャッシュ write read うぉー！うぉー！ぎゃー！！ write Invalidate

Slide 47

キャッシュを汚す事はギルティ http://www.1024cores.net/home/lock-free-algorithms/first-things-first から共有データにWriteした場合の速度 localデータにWriteした場合の速度共有/localデータからReadした場合の速度

Slide 48

http://www.1024cores.net/home/lock-free-algorithms/first-things-first からまったくスケールしない！！！！

Slide 49

話を戻してVersioned Lock Readする際にはバージョン番号と値のペアを読み出すだけ。書き込まない！コミット時にもう一度バージョン番号と値のペアをすべて読み出し直す Read-Onlyなトランザクションであれば共有データには一切書き込みを行わない！ Invisible Readerと呼ばれるSTM設計パターンキャッシュラインのステートがSに固まる Readが多いトランザクションほど高速化する！

Slide 50

Versioned Lock Versioned-Lockに比べてRead-Lockがどれだけ遅いかを表したグラフ出典：McRT-STM: A High Performance Software Transactional Memory System for a Multi-Core Runtime ワークロードによってはざっくり10000倍遅い

Slide 51

ここまでのおさらい 2 Phase Lockプロトコルに従えばSerializableなトランザクションが作れるでも愚直にやると遅い Readがデータを汚さない事に着目して、バージョン番号をRead Lock代わりに使えば高速化できるでも 2 Phase Lockの庇護を失ってしまったさあどんなデメリットが？

Slide 52

2 Phase Lockの外は危険がいっぱい Read時にロックを取らなくなったので、Readしたデータが他のトランザクションによっていつ書き換えらてもおかしくないでもコミット時にバージョン確認によって正しいかどうか確認するから何かあったときはアボートするだけでしょ？甘い！

Slide 53

ゾンビトランザクション問題以下はRead Skewと呼ばれる異常パターン発生する問題は Inconsistent Read問題左のトランザクションは永久に衝突に気づけないコミット時まで値の正しさを検証できない atomic { // この時点でx==y==20 int tmp_x = ReadTx(x); int tmp_y = ReadTx(y); while (tmp_x != tmp_y) { // 無限ループ } } atomic { WriteTx(x, 10); WriteTx(y, 10); }

Slide 54

ゾンビトランザクション問題トランザクションとしては既に致命傷を負ってるから死ぬしかないのに、検証するタイミングまで辿り付けないから死んだ事すら自覚できないゾンビ状態の事無限ループの他にも0除算やSegFaultなどヤバい事をやらかすパターンは無限にある

Slide 55

ゾンビトランザクション回避策ロックを取る（2 Phase Lockに戻る）キャッシュコヒーレントが重いから取りたくない Incremental Validation 値を1つReadTxで読むたびに過去に読んだ値を全て確認し直す確認1回はN回のメモリアクセスを行うのでN箇所読むトランザクションはO(N^2)回読み出すことになる ← 超重い

Slide 56

ゾンビトランザクション回避策 Global Commit Counter コミットが成功するたびにインクリメントする共有カウンタを1つ用意する前回のReadTx時と今回のReadTx時でカウンタの値が変わった場合に限り過去に読んだ値を確認つまりカウンタを目印にIncremental Validationの検証回数を間引く詳細は Michaelら: Conflict Detection and Validation Strategies for Software Transactional Memory(DISC 2006)

Slide 57

ゾンビトランザクション回避策 (Semi-)Visible Readerに変える Readerの存在を伝えることができればWriterを抑制できる例えばSkySTMはSNZI(後述)を使ってReaderの存在をスケーラブルに残している Global Clockを使う（後述）効率が良いお勧めのアルゴリズム

Slide 58

Opacity RachidらのOn the Correctness of Transactional Memory (2008)によって提唱された「トランザクショナルメモリの正しさの基準」であるOpacity SerializabilityやLinearizabilityなどの基準は「成功した」トランザクションのふるまいについてしか定義していなかった Opacityは「すべてのトランザクション（Abortする物も含む）は、一貫したメモリのみを観測しなくてはならない」という基準更にLinearizableであること更にAbortされるトランザクションによる作用は全てのトランザクションから見えない事

Slide 59

Why Opacity? データベースの世界で同様の問題はなかったの？無かった。保護対象がデータベースに閉じていたため「一貫性の無いデータを読んだトランザクションはそのうち死ぬ」という基準で解決している「そもそも一貫性のないデータを読むトランザクションの発生を許さない」という基準はプログラムと密接にくっついたトランザクショナルメモリならではの問題

Slide 60

Global Clock STM進化の一つの大きなブレークスルー Opacityを保証する Transactional Locking II(TL2)がこれを利用した最初のSTM 詳細は(Diceら Transactional Lockng II (2006)) TL2はシンプルで高速なため、最新の論文でもよく比較対象に挙がる

Slide 61

Transactional Locking 2 個々のオブジェクトにVersionを付けるそれに加えて全体で単調増加するカウンタを共有するコミットが成功するたびにカウンタを1増やすコミット成功時に個々のオブジェクトのバージョンにそのカウンタを使う

Slide 62

Global Clock in TL 各トランザクションは初めにGlobal Clockを読む X Y 5 2 3 2 < 5 => OK 6 5 < 5 => NG! Write! Read Commit! Abort...

Slide 63

ゾンビ化しない Global Clockのお陰で誤ったReadが起きないロック無しでread/write conflictに対策できる atomic { // この時点でx==y==20 int tmp_x = ReadTx(x); int tmp_y = ReadTx(y); while (tmp_x != tmp_y) { // 無限ループ } } atomic { WriteTx(x, 10); WriteTx(y, 10); } Abort!

Slide 64

Lazy Versioning Eager Versioning(これまでの手法)だとWriteは悲観的にロックを取ってしまうのでロック期間が長くなりがち各スレッドはコミットまでに「コミット時にやること」をローカルで整理して、コミット時だけロックを取って一気に書けばロック期間が短くなる！

Slide 65

Transactional Locking 2 コミット直前までロックは取らない Readはバージョン番号をSnapshotして読む書き込むデータは変わりにredo-logに保存 Y' X Y Z X' redo-log 2 3 2 3 2

Slide 66

redo-log Transactional Locking 2 コミット時に各オブジェクトのロックを取る redo-logとバージョンを比較問題なければGlobal Clockを添えて書き込み実行 X Y Z Y' X' 2 3 2 3 2 ロック！ 5 5

Slide 67

パフォーマンス Fast

Slide 68

ここまでのおさらいパフォーマンスを得るために2 Phase Lockから足を踏み外したするとゾンビトランザクション問題に襲われたしかしGlobal Clockを備えたTL2によって華麗に解決 TL2はまだ改良できるのではないか？ TL2の改良について追っていく

Slide 69

Bloom Filter Redo-Logの管理に使う Bloom Filterは集合にデータが含まれているかを高速に検知するデータ構造あいうえおあかいふくあかいふく ←あいうえお検知器検知検知すっぽり覆われた物は「あいうえお」のどれかである"確率が高い"

Slide 70

Z Y redo-log Bloom Filter 既にredo-logに書いてる物に上書きしたい時はredo-log内で上書きする必要がある値に書き込む度に「これってredo-logにもう入れたっけ？」と検索する必要がある検索の前さばきにbloom filterが便利 X Y Z 2 3 2 Bloom Filter X Z 2 Y X' 2 3 X

Slide 71

TL2の改良（いっぱいある） Read Onlyトランザクションはコミット時にGlobal Clockに触らなくても良いトランザクション開始時とコミット開始時でGlobal Clockが等しければ他のトランザクションが書き込みをしていないのでValidation不要複数のデータを読む時はバッチ化することでバージョン番号→メモリ→バージョン番号のsnapshootingのメモリフェンスを削減可能 A,Bのバージョンを読んでメモリフェンスしてA,Bを読んでメモリフェンスしてA,Bのバージョンを読む

Slide 72

TL2の改良（いっぱいある） TinySTM Pascal Felberら Dynamic Performance Tuning of Word-Based Software Transactional Memory(2008) バージョン番号をN回確認するの重いメモリアドレスを大雑把なセグメントに分けてそこにもバージョンつければ、バージョン番号のチェックを大幅にサボれる

Slide 73

Hierarchical Locking A 2 B 3 C 5 D 1 E 3 F 4 G 3 H 1 I 3 J 4 K 4 L 6 M 2 N 1 O 4 P 5 Q 6 R 7 S 8 T 9 U 6 V 3 W 2 X 4 Y 4 Z 6 5 6 7 9 6 コミット時にオブジェクト毎のバージョン番号に加えてセグメントのバージョン番号も上書きしておく Commit中のトランザクションのバージョンが変わってないかチェックしたいなー比較3回でOK!

Slide 74

TL2の改良（まだまだある） Global Clockへの更新のキャッシュコヒーレントトラフィックがボトルネックになるかも？各メタデータのClockにスレッドIDを埋め込めばGlobal Clockを増やさなくてよいケースがある（TL2の論文内）複数のトランザクションが同時に衝突なくコミットするなら同一のバージョン使ってもいいのでは（Ruiら Commit phase in timestamp-based STM（2008）） GV4: Global ClockへのCASの失敗は無視して良いのでは？（Yossiら Anatomy of scalable software transactional memory（2009））

Slide 75

TL2の改良（まだまだある） GV5: Global Clockを更新したつもりになって、増やした後のGlobal ClockをObjectのバージョンとして書きこんでいけばよいのでは？それだとGlobal Clockより大きいバージョンのオブジェクトを読もうとするトランザクションが永久に完了できないそんなのは一部の不幸なスレッドだけだ GV6: 1/32の確率しかバージョンのIncrementを試みないというのでどうだ？（Yossiら Anatomy of scalable software transactional memory（2009））

Slide 76

出典：Yossiら Anatomy of scalable software transactional memory（2009） Fast

Slide 77

TL2の改良（まだまだある） TL2C: Global Clockの代わりにVector Clockを使えば大丈夫！ (Hillelら Maintaining Consistent Transactional States without a Global Clock(2008)) 各オブジェクトに[コミットしたスレッドID, その時のスレッドのClock]をバージョンとして付与全スレッドが自分以外の全スレッドの「最後に観測したクロック」を記憶そこと食い違ったらAbortしてクロックを上書きして再実行

Slide 78

出典： Hillelら Maintaining Consistent Transactional States　without a Global Clock(2008) Fast

Slide 79

ここまでのおさらい TL2は良いSTM そのためTL2をベースにした改良版がいくつも出てきて研究が進展した STMの実装を分類学的に見るとどうなるのだろうか？

Slide 80

STMの実装上の選択肢直交する複数の軸がある（直交しない事もある）これらで実存する実装を（いくらか）分類する事ができる

Slide 81

Eager Versioning と Lazy Versioning X Y Z Read Z' Read lock! unlock! Write Y' lock! unlock! Write validation! Commit X Y Z Read Z' Read lock! unlock! Y' lock! unlock! Write validation! Z' Y' redo redo Write Eager Versioning Lazy Versioning TL2はこっち

Slide 82

Lazy Versioning 利点ロック保持期間が短くなるのでスケールしやすいコミット中のスレッド同士しか競合しないのでLive-Lockが発生しえない複数ロックがある場合でもロックを取りに行く時点で全ての欲しいロックが分かっているのでロックの獲得順序を全スレッドで統一できるつまりデッドロックを簡単に回避できる Abortするトランザクションが共有メモリを汚さない Abort時にはログを消去するだけで済むので高速

Slide 83

Lazy Versioning 欠点コミットする際にredo-logの内容を全部本来の場所に書き込む必要がある redo-logを作成するコストを考えると二度手間トランザクションが同じ場所に何度も書き込む手続きの場合、redo-log内を何度も検索する必要がある遅い TinySTMはこれを避けるため、Eager Versioningを使っている

Slide 84

Eager? Lazy? どちらが良いかは場合によるデータベース界隈でもどちらかが決定的に良いという事はない様子？

Slide 85

STMの実装上の選択肢直交する複数の軸がある（直交しない事もある）これらで実存する実装を（いくらか）分類する事ができる

Slide 86

Conflict Detection いつ書き換えるか（Versioning）の他に、いつ衝突を検知するか（Conflict Detection）にも直交する実装上の選択肢がある最初にアクセスする時に検知する？(Eager) 実行中何度も検知する？(Incremental Validation) コミットする瞬間まで検知しない？(Lazy) TL2はLazy Conflict Detection 最初のTransactional MemoryはEager Conflict Detection

Slide 87

Lazy Conflict Detection コミット時まで衝突を検知しようとしない LazyなVersioningと組み合わせる事が多い利点チェックののべ回数が少ない必要のないリトライを行わないのでスループットが出やすい欠点コミットまで走り切らないと間違いに気付けない

Slide 88

いつ衝突を検知するか？ Eagerな検知だと初めのWriteが衝突しあう適切に片方のトランザクションだけ走るように調停する必要がある pが低い(滅多にアボートしない)の時に効率が良い atomic { WriteTx(x, 1); // 何かすごく重い処理 if (prob(p)) { Abort(); } } atomic { WriteTx(x, 1); // 何かすごく重い処理 if (prob(p)) { Abort(); } } 確率pでTrueになる

Slide 89

いつ衝突を検知するか？ Lazyな検知だとコミットまで衝突しない重い処理　が複数のスレッドで走ってしまう pが高い(よくアボートする)時にどれかが早くコミットに辿り着ける見込みがある下手な鉄砲数撃ちゃなんとやら atomic { WriteTx(x, 1); // 何かすごく重い処理 if (prob(p)) { Abort(); } } atomic { WriteTx(x, 1); // 何かすごく重い処理 if (prob(p)) { Abort(); } } 確率pでTrueになる

Slide 90

いつ衝突を検知するか？つまりどちらかが常に良いという事はないこの場合はp次第で最適解が変わるアボートが多い時だけLazyにしてはどうか？ AdamらTransactional Monitors for Concurrent Objects(2004) Write-Write衝突はEagerに、Read-Write衝突はLazyに検知してはどうか？ Michaelら A Comprehensive Strategy for Contention Management in Software Transactional Memory(2009) atomic { WriteTx(x, 1); // 何かすごく重い処理 if (prob(p)) { Abort(); } } atomic { WriteTx(x, 1); // 何かすごく重い処理 if (prob(p)) { Abort(); } } 確率pでTrueになる

Slide 91

STMの実装上の選択肢直交する複数の軸がある（直交しない事もある）これらで実存する実装を（いくらか）分類する事ができる

Slide 92

Granularity トランザクションで保護するデータの粒度これまでの説明では暗黙的にオブジェクト（C言語的には構造体）単位にメタデータを取り付けてきた実際はメモリのワード単位で保護するタイプのSTMもある Word-based STMやObject-based STMなどと呼ぶ

Slide 93

Object-based STM 各オブジェクトに1つずつメタデータを取り付ける利点連続しているのでキャッシュに同時に載るオブジェクト全体が一気に保護できるプログラム言語の機能に取り込みやすい欠点例えば配列をオブジェクトにすると、配列の異なる場所へのアクセスも競合アクセスとなってしまう Object メタデータ Object メタデータ Object メタデータ

Slide 94

Word-based STM ワード単位でオブジェクトを保護する利点巨大なオブジェクト（配列）の一部のデータのみを書き換えるなどのパターンに強い既存の実装に外付けで機械的にトランザクション化できる欠点メタデータが多くなりがちメタデータへのアクセスが遅くなりがち

Slide 95

Word-based STM メモリ番地に対するメタデータを離れた場所に持つが、トランザクションはその両方に触れる必要があるのでキャッシュのコストが2倍メタデータメモリメタデータメタデータメタデータメタデータメタデータメタデータメタデータ

Slide 96

Word-based STM ハッシュ関数などでN:Mの対応にする事もあるメタデータを減らし過ぎると偽共有の問題が発生するメタデータメモリメタデータメタデータメタデータメタデータ

Slide 97

STMの実装上の選択肢直交する複数の軸がある（直交しない事もある）これらで実存する実装を（いくらか）分類する事ができる

Slide 98

Nest トランザクション中でのトランザクションをどう扱うか？ Flatten: 外のトランザクションと結合する。どの時点で失敗しようと全体をロールバック Closed: 内側のトランザクションが失敗したときは内側だけロールバック Open: 内側だろうが外側だろうがコミットはコミットでメモリに書き込む

Slide 99

Flattened Nesting すべて最外周のトランザクションに合成される利点：実装が楽欠点：アボート時に高くつく atomic { WriteTx(x, 2); atomic { WriteTx(x, 3); ... AbortTx(); } ... }

Slide 100

Closed Nesting 内側は内側で処理される利点：アボート時のペナルティが少ない欠点：実装が複雑で遅くなりがち atomic { WriteTx(x, 2); atomic { WriteTx(x, 3); ... AbortTx(); } ... } デフォルトでFlattenで動作し、Abort時のリトライだけClosedにスイッチする等の戦略が考えられる

Slide 101

Open Nesting どのポイントでもトランザクションのコミットは常にメモリを更新する利点：性能が高まりやすい欠点：使いどころが難しい atomic { WriteTx(x, 2); atomic { WriteTx(x, 3); ... } AbortTx(); ... } // ← ここでは x == 3 Yangら Open Nesting in Software Transactional Memory (2007)

Slide 102

STMの実装上の選択肢直交する複数の軸がある（直交しない事もある）これらで実存する実装を（いくらか）分類する事ができる

Slide 103

Isolation トランザクション中で触るデータに、トランザクション外から触ったらどうなるのか？ロックの場合であっても迂闊に触ったら壊れるのは一緒でもロックなら注意深く触れば大丈夫なパターンはいくつもある STMではどんなに注意深く触ってもダメなパターンがある（後述）

Slide 104

ここまでのおさらい TL2は良いSTM（大事なことなのでry 実装上の選択肢はまだいくつもあり、TL2はその中の効率的な組み合わせの一つ改良はまだいくつも出てくるけれど、またどこかで罠にぶち当たるのでは？ Isolationの問題

Slide 105

TL2の改良（まだあるのかよ）以下のトランザクションを救いたい atomic { // Clock=10 loacl_x = ReadTx(x); } atomic { // clock=10 WriteTx(x, 10); } // clock->11 ←バージョン番号不一致でAbort() トランザクション開始時のクロックより新しい物を読んだからと言って、必ずしもそれがアボートするほど致命的とは限らない

Slide 106

TL2の改良（まだあるのかよ） Timebase Extension（Lazy Snapshot Algorithm） Tovaldら Time-based Transactional Memory with Scalable Time Bases (2007) Read-Setの中に矛盾さえ無ければ良いから、トランザクション開始時のタイムスタンプで辻褄が合わない時だってRead-SetをValidationし直せば助かる場合もある特にさっきの場合、Read-Setが空なのでValidationは必ず成功する

Slide 107

Timebase Extensionの罠以下のケースでバグる atomic { int tmp = ReadTx(x); if (ReadTx(x_published)) { // Use tmp } } x_published = false; x = 42; atomic { WriteTx(x_published, true); } ←TL2ならここでAbort()してくれた ←ここでゾンビするかも… これを Racy Publication Idiomと呼ぶ

Slide 108

次なる怪物：Privatization Idiom atomicがsynchronizedだったら、どう実行しても x == 100 にしかならないはず左のトランザクションが、xを「自分だけのもの」に変えたときに出現する問題 atomic { WriteTx(x_is_private, true); } x = 100; atomic { if (!ReadTx(x_is_private)) { x = 200; } }

Slide 109

Privatization Idiom(Eager) Eager Versioningだと★の行で右トランザクションがx_is_sharedの競合に気付いて、undo_logでxを42に書き戻してしまう(100は無かった事になる) 左のトランザクションはxを「自分しかアクセスできない物」にしたつもりが他のトランザクションに邪魔された事になる atomic { WriteTx(x_is_private, true); } x = 100; atomic { if (!ReadTx(x_is_private)) { x = 200; // ← 実行した } // undo_log(x) == 42 } // ★

Slide 110

Privatization Idiom(Lazy) Lazyであっても、右のトランザクションがvalidationを終えた直後(redo-log書き込み前)に左のトランザクションとx=100が一気に完走すると、右のトランザクションのRedo-Logの書き込みが最後になってしまい、x=200になるたぶんTL2もヤバい 2 Phase Lockならx_is_privateのロックが食い止めてくれた atomic { WriteTx(x_is_private, true); } x = 100; atomic { if (!ReadTx(x_is_private)) { x = 200; // ← Redo-Log } } // ★ Data Race

Slide 111

そもそもトランザクショナルメモリとは？ Privatization Idiom? Racy Publication? STM設計者：そんな無茶な使い方しないでよ！ STMユーザ：synchronizedの代わりに使えるって言いだしたのはSTM側じゃん！どっちの言い分も筋は通るトランザクショナルメモリが真に備えるべき機能について、本当は合意できていないモデリングが不十分

Slide 112

モデリングとは実装がどのように動くかについてユーザに期待して貰いたい挙動の抽象的表現つまり「STMは何を約束するのか」どういう挙動をすると思って使えばいいのかこのモデリングがしっかりしていれば、STMを使ったコードが異なる同モデルのSTM実装上でも動くはず！ポータブル！

Slide 113

Single Lock Atomicity（SLA） STM初期の神話 atomicのブロックはまるでプロセス全体で共通している単一のロックだと思って使えば良いよ、というSTMの保障 STMの宣伝文句に使われた非常に明快で直観的 synchronizedをatomicに変えれば良いだけだ！実はTM過激推進派の欺瞞（大げさ）ロックを機械的に置き換えると非常に困るケースがいくつもある

Slide 114

Data Race Lockだったらtmp_xは42か10のどちらかになるはず(少なくともJavaは) STMだと、実装にも依るけれど鼻から悪魔が飛び出す Single Lockだと思えって言ったのは誰だ！ x = 42; atomic { WriteTx(x, 10); } int tmp_x = x;

Slide 115

Victorの例左のスレッドが先に走ったら、右のスレッドも10秒待たされないとおかしい！でも実際は右のスレッドは即座に完了する Single Lockだと思えって言ったのは誰だ！ Victor：Against lock-based semantics for transactional memory(2008) atomic { sleep(10); } atomic { WriteTx(x, 10); }

Slide 116

Empty Publication ロックならここでatomic{}の所でseq_cstなメモリフェンスが行われたはず STMだと古いdataを読んだぞ！ Single Lockだと思えって言ったのは(ry data = 1; atomic { /* 空 */ } ready = true; atomic { int tmp = data; if (ready) { // use data } } Vijayら Single global lock semantics in a weakly atomic STM(2008)

Slide 117

Single Lock Atomicity... 結構批判が多い本当に単一のロックだと思えるSTMは作れなくないが実装の選択肢が相当減るけれど「ロックだと思え」というのは多くのユーザーから見て直観的なのも事実落とし所は無いものか？

Slide 118

Lock based Modeling（DLA） Disjoint Lock Atomicity（DLA） Vijayら Single global lock semantics in a weakly atomic STM(2008) アクセス対象のデータに個別にロックがあると考える。トランザクション開始時にアクセス対象のデータのみをすべてロックする（というモデリング）アクセス対象のデータが被ったトランザクションだけが衝突すると思え（というモデリング） Empty Publicationイディオムは明白にノー（データに触らないトランザクションは他のトランザクションとぶつかれない）

Slide 119

Disjoint Lock Atomicity(DLA) DLAはユーザーから見たらわかりやすいかも知れないけれどSTM側の制約が辛い例えば左のassertが通るならDLA下では必ずval == 1になってくれないと困る（readyのロック取ってるんでしょ？）でもTL2はそうならない！（Read-Lockを取らないため） ready = false; data = 1; atomic { test = ready; } assert(test == false); data = 0 atomic { int tmp = data; // tmp == 0 ready = true; val = tmp; // val == 0 }

Slide 120

Disjoint Lock Atomicity(DLA) 「read-lockはトランザクション開始時にすべて確保されるけれど、write-lockの獲得は実際の書き込みまで遅延するよ」と考えると下の例が動かないのは納得がいくこのモデリングを「Asynmetric Lock Atomicity」と呼ぶ ready = false; data = 1; atomic { test = ready; } assert(test == false); data = 0 atomic { int tmp = data; // tmp == 0 ready = true; val = tmp; // val == 0 }

Slide 121

Encounter-time Lock Atomicity(ELA) 「read-lockもwrite-lockも獲得は実際の読み込み・書き込みまで遅延する」というモデリング Racy Publication Idiomは明白にサポートされないつまり下のようなコードを書いたらプログラマが悪い atomic { int tmp = ReadTx(x); if (ReadTx(x_published)) { // Use tmp } } x_published = false; x = 42; atomic { WriteTx(x_published, true); }

Slide 122

SLA->DLA->ALA->ELA SLAはプログラマから理解しやすいし使いやすい一方でSTM側には制約が強い STMの制約が強いとパフォーマンスも出しにくい DLA、ALA、ELAと変わるにつれてプログラマへの制約がかかる一方でSTMの実装の選択肢が増えるプログラマの制約が強いとエンバグしやすくデバッグも辛くなる

Slide 123

ここまでのまとめ Publication / Privatizationの事を考えると結構頭が痛いサポートしようとすると遅くなるサポートを諦めてプログラマに「こういう物だ」とロックに例えて抽象化したモデルを定義しようとするとEncounter-time Lock Atomicityのようになる（割とbrain-damaging）ロックに例えようとするから不味い発想からしてロックから離れよう Transactional Sequential Consistencyへ

STMの設計と進化

Flag as Inappropriate

No comments posted yet

Comments

Post a comment

Sign In

Share presentation with a group