(cache) Google Cloud Platform Japan 公式ブログ: カナリアのおかげで命拾い : CRE が現場で学んだこと

カナリアのおかげで命拾い : CRE が現場で学んだこと

2017年4月18日火曜日

前回の投稿

Photo taken by David Carroll

John Scott Haldaneロールバックが安全に実施できるクライアントでのカナリアリリース

ごく少数のユーザーにだけ新バージョンをデプロイするにはどうすればよいのか。

新バージョンがクラッシュを繰り返したり、トラフィックを落としたり、ユーザーエラーを表示したりしたときは、どうやって検知するのか（クエリが発生していないことに対するモニター音はどうするのか）。

アプリケーションパッケージファイルウェブクライアントAndroid APK のリリース段階的にロールアウト

更新の対象となるユーザーが、実際にいつ更新を確認するかはわかりません。ユーザーが適切にネット接続できる状況にあれば、通常は 24 時間以内でしょう。ただ、携帯電話や WiFi データサービスが低速だったり、バイト単位の費用が高額だったりするような国では、そうとも限りません。

ユーザーがモバイルデバイスで更新を許諾するかどうかもわかりません。特に新リリースにおいて追加の許可が必要な場合は、ここが課題となります。

リリースの割合を段階的に増やす

（カナリアの）最初の段階では、監視やロギングによって問題が明確になるように十分なトラフィックを生成する必要があります。ユーザー数がどれだけなのかにもよりますが、だいたい全ユーザーの 1 % ～ 10 % 程度と考えるとよいでしょう。

各段階で手動の作業が数多く発生し、全体のリリースは遅れます。1 日 3 % ずつ段階的に作業すると、完全にリリースするまで 1 か月かかります。

一気に割合を増加させると（たとえば 10 % から 100 % にするなど）、小規模なトラフィックでは生じなかったトラフィックの大問題が発生する可能性があります。こうした懸念がある場合は、各段階で更新をかけるユーザー数を 2 倍以上増やさないようにしましょう。

新バージョンに問題がないときは、大半のユーザーにすぐにでも使ってもらいたいと考えるのが普通です。ロールバックする場合は、新しいリリースを出すときよりも 100 % 速くロールバックするようにしましょう。

トラフィックのパターンは、通常は日中に最も混雑するなど 1 日を通して変化するものです。そのため、リリース後のトラフィック負荷のピークを把握するには、最低でも 24 時間が必要です。

モバイルアプリの場合、ユーザーが新リリースを取り入れ、有効にして使い出すまでに時間がかかると考えましょう。

段階的アップデート

まとめ

ロールバックは早期に行い、頻繁に行うこと : この哲学に従うようにサービスを持っていけば、サービスの平均修復時間（MTTR）を削減できます。

ロールアウトではカナリアを使うこと : どれだけテストや QA を実施したとしても、実稼働のトラフィック上でバイナリリリースに問題が見つかることは少なくありません。効果的なカナリア戦略を取り入れ、正しく監視することで、問題の平均検知時間（MTTD）が短縮でき、影響を受けるユーザー数も大幅に削減できます。