Google Cloud Platform Japan Blog
最新情報や使い方、チュートリアル、国内外の事例やイベントについてお伝えします。
SRE の教訓 : App Engine で 1 日 1,000 億件以上のリクエストに対応する方法
2016年4月11日月曜日
* この投稿は米国時間 4 月 6 日、Google Cloud Platform の Managing Editor である Jo Maitland によって投稿されたもの(
投稿はこちら
)の抄訳です。
今回は、3 年半にわたって Google App Engine のサイト信頼性エンジニアを務め、Google でのサイト信頼性エンジニア経験が 9 年近くに及ぶ Chris Jones に、Google の本番システムの運用についてインタビューした内容を紹介します。
Chris は、O'Reilly から最近発売されたばかりの書籍『
Site Reliability Engineering : How Google Runs Production Systems
』の著者の 1 人でもあります。
Google App Engine
は 1 日あたり 1,000 億件以上のリクエストに対応しています。そしてそれがサイト信頼性エンジニアのおかげであることを、すでに皆さんはご存じかもしれません。
ちょっと驚異的にも思えますが、こうした稼働規模にはコンピュータ科学および工学の原理を応用したコンピューティング システムの設計と開発が大きくかかわっています。それらは通常、非常に大規模で分散されたシステムであることから、運用が重要な意味を持っています。
サイト信頼性エンジニアリング(SRE : Site Reliability Engineering)は、私たち誰もが本番システムを適切に運用することを可能にする一連の工学的な技術アプローチです。広範な IT コミュニティに普及している DevOps の考え方にも影響を与えました。
SRE の興味深いところは、地球規模のシステムのパフォーマンスと信頼性を向上させる比較的シンプルな方法でありながら、どのような企業でも、たとえば Windows デスクトップを展開する場合などにも同様に役立つことです。SRE のテクニックを適切に使用すれば、あらゆるコンピューティング サービスの運用効果を高めることができます。
Q :
App Engine は、何人のサイト信頼性エンジニアがどのような規模で運用しているのですか?
Chris Jones(以下、CJ):
App Engine では数百万のアプリケーションが使用されていて、1 日に 1,000 億件以上のリクエストに対応しています。そしてそれを数十人のサイト信頼性エンジニアでサポートしています。
Q :
そんなに少ない人数で、どうやってこなしているのですか?
CJ :
SRE は、大規模分散コンピューティング サービスを運用するための工学的アプローチです。そこで重要なのは、システムを高度に標準化することです。つまり、すべてのシステムがどれも同じように動作するようにします。そうすれば、運用に必要な人数は少なくなります。理解し、対処すべき複雑さが軽減されるからです。
自動化も重要です。App Engine では、キャパシティの追加やロード バランシングのためのリソース拡張プロセスが自動化されています。多くの人によってではなく、コンピュータによってこのプロセスをうまくスケーリングできるようにするためです。退屈な反復的プロセスを人手で行うと、徐々にエラーが増えてしまいます。
また、コンピュータは障害が発生したときも、人間よりずっと迅速に対処します。私たちがエラーに気づくまでの間に、コンピュータはもうトラフィックを別のデータセンターに移動して、サービスの稼働を維持します。人間は人間が得意なことを、コンピュータはコンピュータが得意なことを担当するようにするのが望ましいのです。
Q :
SRE モデルのアプローチには、他にどのようなものがありますか?
CJ :
Google の各サービスの SRE チームは、他の多くのサービスの SRE チームと協力し合っています。そのため、私たちはプロダクトの垣根を越えて標準化の原理を適用していくことができます。
たとえば、もともと Gmail の新バージョンをデプロイするためにサイト信頼性エンジニアが作成したツールが、もっと多くの状況をカバーするように汎用化されるかもしれません。そうなれば、各チームは更新プログラムをデプロイする手段を自前で用意せずに済みます。すべてのプロダクトが、そのツールに加えられた改良の恩恵を受けることができ、全社レベルでツール環境が向上することになります。
さらに、SRE においてソフトウェア エンジニアリングとシステム エンジニアリングの知識を融合することで、両者のいいとこ取りのソリューションが生まれることがよくあります。Google のソフトウェア ネットワーク ロード バランサである
Maglev
はその一例です。これは
Google Cloud Load Balancer
を支えている技術です。
Q :
そうしたアプローチは App Engine と、App Engine を使用するお客様にどのように影響しますか?
CJ :
それがよくわかる事例があります。私たちは 2013 年夏に、App Engine の US リージョンで使用されていたアプリケーションとデータ全体を、米国内を横断するような形で移動させました。その際、ダウンタイムは発生しませんでした。
Q :
どのように行ったのですか?
CJ :
私たちはまず、ある App Engine クラスタをシャットダウンしました。設計どおり、その上で稼働していたアプリケーションは、残っていたクラスタに自動的に移動しました。
さらに、US リージョンの
High Replication Datastore
のコピーを移動先データセンターに作成しました。これらのアプリケーションのデータ(ペタバイト規模の量でした)をあらかじめ用意しておくためです。それ以降に Datastore に加えられた変更は、自動的にほぼリアルタイムで複製され、この移動先データセンターのデータは最新に保たれました。
App Engine を新しい場所で立ち上げる段になると、そのクラスタに割り当てられているアプリケーションがバックアップ クラスタから自動的に移行してきて、すでに用意されていたデータがすべて利用可能になりました。私たちは残りのクラスタについて、移動が完了するまでこのプロセスを繰り返しました。
入念に準備し、幅広いテストを行うとともに、緊急時対応計画も策定しておくことで、
少し問題が生じたとき
でも、私たちは対応できる態勢が整っていて、お客様への影響を最小限に抑えることができました。
そしてもちろん、私たちはチーム内で事後検証を行いました(これも SRE の重要な要素です)。犯人探しをするのではなく、問題の原因を究明し、将来のために、それを修正する方法を見いだすためです。
Q :
素晴らしいですね。SRE についてもっと知るためには、どうすればよいですか?
CJ :
SRE が Google でどのように実践されているか、その過程で私たちがどのような教訓を学んだかについて詳しく知りたい方は、こちらの
ウェブ サイト
や
新刊書
をチェックしてみてください。また、私たちは先ごろ(4 月 7 ~ 8 日)、
SREcon
において、このトピックに関していろいろと話をしたところです。
- Posted by Jo Maitland, Managing Editor, Google Cloud Platform
0 件のコメント :
コメントを投稿
Labels
App Engine
AppScale
BigQuery
Billing Alerts
Cloud Bigtable
Cloud Consoleアプリ
Cloud Dataproc
Cloud Debugger
Cloud monitoring
cloud Pub/Sub
Cloud SQL
Cloud Storage
Compute Engine
Compute user Accounts
Container Engine
Container Registry
Deployment Manager
Developers
Firebase
Google Cloud Console
Google Cloud Dataflow
Google Cloud Datalab
Google Cloud Datastore
Google Cloud Launcher
Google Cloud Logging
Google Cloud Security Scanner
Google Cloud Shell
Google Cloud Storage Nearline
Google Genomics
IoT
Kubernetes
MySQL
Next
OLDISM
Panda
Puppet
Startups
Vision API
Vitess
イベント
コンピューティング
サポート
スタートガイド
ストレージ
セミナー
ソリューション: メディア
データセンター
ビッグデータ
運用管理
機械学習
月刊ニュース
資格、認定
新機能、アップデート
導入事例
料金
Archive
2016
4
3
2
1
2015
12
11
10
9
8
7
6
5
4
3
2
1
2014
12
11
10
9
8
6
5
4
3
2
Feed
Follow @GoogleCloud_jp
0 件のコメント :
コメントを投稿