Antifragile Java - Java Day Tokyo 2017 D1-E1

Antifragile Java
kawasima
Java Day Tokyo 2017
D1-E1
TIS株式会社
川島義隆

Antifragile
リーマンショックで大儲けした
ニコラス・ナシム・タレブの書いた
ブラック・スワンに続くヒット作
(日本語訳は未)
主題は、不確実なことが実際に
起きたときに、大きなゲインを
得ようというもの。

Fragile
変化に対して弱い・損失が大きい仕組み
●
後戻りの計画・その分の予算確保がないウォー
ターフォールのプロジェクト
●
プロビジョニングが十分でないシステム
(ex. 30分 2000PVでダウンする図書館システム)
●
例外のハ...

Robust
変化に対して、十分強い仕組み
(フラジャイルの裏返し)
●
よく計画されたウォーターフォールの開発プロジェクト
●
急激なアクセス増や異常なデータファイルに対しても、
安全に処理できるアプリケーション
●
例外を適切にハンドリング...

Resilient
大きな変化に対し、一時的にシステムのパフォーマンス
を落としてもすぐに復旧できる仕組み

Antifragile
変化が起これば起こるほどメリットがある仕組み
ストレスが増せば増すほど強くなる仕組み
そんなことが可能なのでしょうか?

Benefit
Change
Cost
Antifragile
Resilient
Robust
Fragile

現在の知識で予測しない
早期に問題を起こして対処する
1697年まではヨーロッパでは真実だった。
「白鳥は白い」
経験に基づく知識
現在の知識の限界　→　分からないことが分からない

<%@ page contentType="text/html; charset=UTF-8"%>
クローラやDDoS攻撃を受けない環境で開発し
てきた人にとっては、問題が予測できない
<%@ page contentType="text/ht...

Five Orders of Ignorance
0OI: 全部分かっている
「答え」を持っている。あとは書き写すだけで完成する。
1OI: 分からないことが分かっている
答えを得るための「質問」を持っている。
2OI: 分からないことが分から...

2OIには予測できないBlack Swanが潜む
どうやってBlack Swanを見つけるか?

Bricolage(ブリコラージュ)
プロダクトを組合せたり分解したりして
いじくり回し(Tinkering)新しい価値を生み出す
http://aisel.aisnet.org/cgi/viewcontent.cgi?article=1027...

GameDay
消防士の災害訓練みたいなもの
●
実際の重障害発生をシミュレートして対応
にあたる
● Amazonで始められ、Google、Yahoo、Netflix
などで同様に実施されている。

失敗を避けるのではなく
失敗を前提としてシステムを設計する
Availability :=
MTTF
MTTF + MTTR
https://www.slideshare.net/ufried/patterns-of-resilience
We...

Minimize MTTR
検知
原因解析
修正
テスト
デプロイ
それぞれのフェーズを
短くする

レジリエント
Antifragile
Resilient
Robust
Robust無きResilientの追求はFragile
Resilient無きAntifragileの追求はFragile
Antifragileは１日にしてならず。
ま...

レジリエントの教科書

Timeout
●
Socket#connect
●
SocketInputStream#read
(privateメソッドのため、実際はSO_TIMEOUTで指定する)
●
Object#wait
●
Process#waitFor
●
Fu...

Retry
●
冪等性に注意
(POSTリクエストのSocket Timeoutはリトライすると
二重処理される可能性がある)
● Timeoutした処理はすぐリトライしても、失敗する可
能性が高い
無闇なリトライはリソースを無駄に喰うだけ
R...

Resilient
https://github.com/jhalterman/failsafe
Failsafeを使うと、簡単にリトライポリシーを設定できる
Exponential backoff なども

Circuit Breaker
Resilient
Closed Open
Half Open
失敗が何度も続いたら呼び出し側で呼び出しを停める
(Release It!で紹介されてメジャーに)
失敗が閾値を越える
リセットを試みる
失敗
リセ...

https://github.com/jhalterman/failsafe
Netflix Hystrixが有名だが、前述のfailsafeでも実装可能

Bulkheads(隔壁)
Resilient
Circuit Breakerと違って、呼び出される側のリソースを保護する
Web
Icon made by Freepik from www.flaticon.com
Web Web
Free...

Steady state
人間がサーバに触れば、そこには常に凡ミスの恐れがある
特に見積では遠い未来のことでも、リソース使用に上限が
設定されていないものは、近い将来、手運用が入るか、
本番障害として現れる
●
ログファイル削除(ローテート)
...

ログローテーションはOS全体の運用と合わせるとよい。
(Log4j等のAppender自体の持つローテーションは運用トラブルをよく聞く)
http://qiita.com/kawasima/items/ab2c9c14e8bbb2d23df5
...

Fail Fast
失敗の可能性が早く分かるものは、その時点で失敗させる
Resilient
●
トランザクションを始める前に、失敗の可能性が
あるかチェックする。
●
リソースを使うより先に、ユーザの入力値チェック
をおこなう

APIゲートウェイでValidationする
Resilient
API Gateway
Service A
Service B
HTTP
HTTP
入力フォーマットの
チェックはここで
可能
そういうAPI Gateway (というかBFF)...

Monitoring
異常状態をいち早く検知することがAntifragileの必要条件

Anormaly Detection
Monitoring
http://docs.datadoghq.com/ja/guides/anomalies/
季節や時間帯などで変動の大きいデータの異常検知手段

Consumer Driven Contract
Testing
Monitoring
Client
(Consumer)
Server
（Provider)
知らぬ間にServerのAPIが変更された、なんてことがないよう、
Contract...

クライアントサイドからのモニタリング
Monitoring
●
ページのスクショを撮って、変わってないことを比較
する
● ページのHTMLソースを比較する
● Javascriptのエラーが無いことを確認する
● 各ページのHTTPステータス...

Unknownの早期検出
「分かっていないこと」を、ランダム性やTinkeringによってあぶり出す

Failure Injection Testing
https://www.slideshare.net/JoshEvans2/embracing-failure-reinvent-2014
意図的に本番障害を起こし、...

Failure Injectionの自動化
https://www.slideshare.net/InfoQ/applying-failure-testing-research-netflix
現段階では「Inject...

Random Testing
入力データをランダムに生成し、テストする
junit-quickcheckの例

clojure.spec
Design by ContractのためのツールだがProperty-based Testing
にも使える
構造をもったJSONのようなデータも仕様に沿って生成できる

探索的テスト
探索的テストで、テストにもランダム性と変動性をもたせ
未知の問題をあぶり出す。
Explore (target)
with (resources)
to discover
(information)
何を...

高速起動
アプリケーションの起動は速ければ速いほどよい
Java EEやSpringでは遅いし
lightweightを謳うフレームワークでは機能面で物足りない
遅くなる原因
● DIのためのクラススキャン
●
設定ファイルの動的パース
速い改...

Enkan
https://www.slideshare.net/kawasima/enkankotowarirepl
起動がとにかく速くなるように１から設計したフレームワーク
速い改善のサイクル
● 1〜3秒で起動し、Port Listenす...

EnkanSystem.of(
"doma", new DomaProvider(),
"jackson", new JacksonBeansConverter(),
"flyway", new FlywayMigration(),
"temp...

Routes routes = Routes.define(r -> {
r.get("/").to(HomeController.class, "index");
r.get("/login").to(LoginController.clas...

https://www.slideshare.net/syobochim/sier-devops-jjugccc-69780604/32
社内利用事例

https://www.slideshare.net/syobochim/sier-devops-jjugccc-69780604/49

無停止デプロイ
Server#1
WebApplication
Load balancer
Server#2
WebApplication

Falchion Container
Falchion Container
JVM real process
WebApplication
JVM pool
JVM virtual process
JVM virtual process
JVM...

REST APIでJVMの再起動や監視ができる

アプリケーションのデプロイ/切り戻し
appdir/
/1.0.0
webapp-1.0.0.jar
/1.1.0
webapp-1.1.0.jar
% curl -X POST http://[falcion]/conta...

Auto Repair
http://program-repair.org/
システムの修復には２通りある
● 状態の修復 (トランザクションのロールバックなど)
● 振る舞いの修復 (プログラムのパッチなど)
プログラムの...

自動的にpatchを作ってくれる

Auto Tuning

Bimodal IT
SoR SoE
●
安定性重視
●
予測可能業務
●
リスクを抑えて安全運転
●
要件を事前に明確化
●
スピード重視
●
探索型業務
●
スピード重視で運転
●
トライ&エラー、プロトタイピング
Martin Fowle...

リードタイムとプロセスタイム
リードタイム
タスク着手タスク完了チケット作成
プロセスタイム
慎重を要するプロジェクトとそうでないプロジェクトの違いは
リードタイムに現れる

リードタイムの短縮領域
●
案件が失敗が許されないのか、失敗前提でいくの
かを起案時にハッキリさせる
●
それに応じたチーム体制を用意する
●
バッチサイズに応じた開発〜リリースプロセスを
設計する
DevOpsの下地完成

Road to DevOps & Antifragile
①DevとOpsを分離する
②Opsを無人化する
③OpsのAntifragile化

DevとOpsの分離
ITILやSOX法への対応のためには、開発者が
本番環境に気軽にアクセスできることはまかりならない
開発環境本番環境
運用チーム開発チーム
アクセスは互いに
制限される

Opsの無人化
Devが本番環境にログインしない
デプロイ対象の提供
本番のメトリクス
発生障害情報の連携

OpsのAntifragile化
Tinkering / FIT
本番環境にストレスを加えて強くする

● RobustからResilient、Antifragileへ
Javaにはそのパーツが揃いつつある
●
予測は大事だが限界がある
あれこれいじくり回せる環境とプロセスを作ろう
●
失敗を防ぎきるよりも、前提とした設計を

Antifragile Java - Java Day Tokyo 2017 D1-E1

Yoshitka Kawashima

Antifragile Java - Java Day Tokyo 2017 D1-E1