米東海岸で発生したAmazon S3の大規模障害、原因はタイプミス 8
ストーリー by headless
復旧 部門より
復旧 部門より
米国の東海岸で2月28日朝(日本時間3月1日未明)にAmazon Simple Storage Service(S3)の数時間にわたる大規模な障害が発生し、多くのWebサイトやサービスが影響を受けたのだが、原因はエンジニアのタイプミスだったそうだ(Amazon Web Servicesの発表、
The Vergeの記事、
The Guardianの記事、
The Registerの記事)。
当時、課金システムのデバッグを行っていたAmazon S3チームは、課金システムで使用するサブシステムの少数のサーバーを削除しようとコマンドを入力したのだという。しかし、タイプミスにより、意図していたよりも広い範囲のサーバーが削除されることになる。 意図せず削除されたサーバーはインデックスサブシステムとストレージ割り当てのサブシステムが使用するもので、相当量の容量が削除されたことで各サブシステムの完全な再起動が必要になったとのこと。
S3のサブシステムはこのような状況でも顧客に大きな影響がないよう設計されているが、これらのサブシステムは何年にもわたって完全再起動したことがなかったそうだ。また、S3はこの数年で規模が大幅に拡大しており、再起動時の整合性チェックなどにも想定以上の長い時間を要したという。
同様の問題が今後は発生しないよう、Amazonでは削除に使用するツールを改良して削除速度を低下させ、必要最低限の容量を下回る削除処理が実行できないように対策したとのこと。また、重要なサブシステムの復旧を迅速化するため、S3ではサービスをセルと呼ばれる小さなパーティションに分割して格納しており、規模の拡大に伴ってセルの縮小を進めてきたという。しかし、今回のトラブルでは想定以上の復旧時間を要したため、今後インデックスサブシステムのさらなるパーティショニングを進めるとのことだ。
当時、課金システムのデバッグを行っていたAmazon S3チームは、課金システムで使用するサブシステムの少数のサーバーを削除しようとコマンドを入力したのだという。しかし、タイプミスにより、意図していたよりも広い範囲のサーバーが削除されることになる。 意図せず削除されたサーバーはインデックスサブシステムとストレージ割り当てのサブシステムが使用するもので、相当量の容量が削除されたことで各サブシステムの完全な再起動が必要になったとのこと。
S3のサブシステムはこのような状況でも顧客に大きな影響がないよう設計されているが、これらのサブシステムは何年にもわたって完全再起動したことがなかったそうだ。また、S3はこの数年で規模が大幅に拡大しており、再起動時の整合性チェックなどにも想定以上の長い時間を要したという。
同様の問題が今後は発生しないよう、Amazonでは削除に使用するツールを改良して削除速度を低下させ、必要最低限の容量を下回る削除処理が実行できないように対策したとのこと。また、重要なサブシステムの復旧を迅速化するため、S3ではサービスをセルと呼ばれる小さなパーティションに分割して格納しており、規模の拡大に伴ってセルの縮小を進めてきたという。しかし、今回のトラブルでは想定以上の復旧時間を要したため、今後インデックスサブシステムのさらなるパーティショニングを進めるとのことだ。
一方日本では過去に (スコア:2)
rootディレクトリでroot権限で作業中、間違って rm -rf * を実行してしまい、復旧作業に取り掛かったものの「どうせ全部チャラなんだから」と、マシンそのものを新規に設計・開発した人を知っています。
Re: (スコア:0)
その節は大変お手数かけました。
本当にタイプミスなのか? (スコア:0)
アマゾンの発表では
> At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.
誤って入力されたとだけ書いてあり、タイプミスだとはどこにも書いていないのだが、リンク先の三紙はいったいどこからtypoだという情報を仕入れたのだろう
アマゾンほどの会社がタイプミスにこんなに脆弱だとは考えにくいのだよ
それとも買いかぶりすぎなのだろうか
Re: (スコア:0)
「タイプミス」って言葉が押すキーを間違えたってことか、防げえる誤入力なのかはわからない
Re: (スコア:0)
100と入れるべきところに、100と入れようとして、手が滑って1000と入力してしまい、それが受け付けられたのなら、ずいぶんお粗末な話です
Re:本当にタイプミスなのか? (スコア:1)
滅多に使わない機能なんて、まあ、そんなもんよ
以下「バルス」禁止 (スコア:0)
強力なコマンドを残しておくと大変だよね(棒
Re: (スコア:0)
トークンと生体認証が必要な非常手段だから