パスワードを忘れた? アカウント作成
13177209 story
クラウド

米東海岸で発生したAmazon S3の大規模障害、原因はタイプミス 8

ストーリー by headless
復旧 部門より
米国の東海岸で2月28日朝(日本時間3月1日未明)にAmazon Simple Storage Service(S3)の数時間にわたる大規模な障害が発生し、多くのWebサイトやサービスが影響を受けたのだが、原因はエンジニアのタイプミスだったそうだ(Amazon Web Servicesの発表The Vergeの記事The Guardianの記事The Registerの記事)。

当時、課金システムのデバッグを行っていたAmazon S3チームは、課金システムで使用するサブシステムの少数のサーバーを削除しようとコマンドを入力したのだという。しかし、タイプミスにより、意図していたよりも広い範囲のサーバーが削除されることになる。 意図せず削除されたサーバーはインデックスサブシステムとストレージ割り当てのサブシステムが使用するもので、相当量の容量が削除されたことで各サブシステムの完全な再起動が必要になったとのこと。

S3のサブシステムはこのような状況でも顧客に大きな影響がないよう設計されているが、これらのサブシステムは何年にもわたって完全再起動したことがなかったそうだ。また、S3はこの数年で規模が大幅に拡大しており、再起動時の整合性チェックなどにも想定以上の長い時間を要したという。

同様の問題が今後は発生しないよう、Amazonでは削除に使用するツールを改良して削除速度を低下させ、必要最低限の容量を下回る削除処理が実行できないように対策したとのこと。また、重要なサブシステムの復旧を迅速化するため、S3ではサービスをセルと呼ばれる小さなパーティションに分割して格納しており、規模の拡大に伴ってセルの縮小を進めてきたという。しかし、今回のトラブルでは想定以上の復旧時間を要したため、今後インデックスサブシステムのさらなるパーティショニングを進めるとのことだ。
  • by ncube2 (2864) on 2017年03月04日 17時12分 (#3170881)

    rootディレクトリでroot権限で作業中、間違って rm -rf * を実行してしまい、復旧作業に取り掛かったものの「どうせ全部チャラなんだから」と、マシンそのものを新規に設計・開発した人を知っています。

    ここに返信
    • by Anonymous Coward

      その節は大変お手数かけました。

  • by Anonymous Coward on 2017年03月04日 17時58分 (#3170895)

    アマゾンの発表では

    > At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.

    誤って入力されたとだけ書いてあり、タイプミスだとはどこにも書いていないのだが、リンク先の三紙はいったいどこからtypoだという情報を仕入れたのだろう

    アマゾンほどの会社がタイプミスにこんなに脆弱だとは考えにくいのだよ
    それとも買いかぶりすぎなのだろうか

    ここに返信
  • by Anonymous Coward on 2017年03月04日 18時17分 (#3170902)

    強力なコマンドを残しておくと大変だよね(棒

    ここに返信
    • by Anonymous Coward

      トークンと生体認証が必要な非常手段だから

typodupeerror

アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家

読み込み中...