- Japan Edition
- ZDNet is available in the following editions:
- Austrailia
- Asia
- China
- France
- Germany
- United Kingdom
- USA
- Blog
- ホワイトペーパー
- 企業情報センター
- 話題の1本
- builder by ZDNet Japan
- CNET Japan
- TechRepublic Japan
Amazon Web Services(AWS)は米国時間3月2日、同社のサービスで2月28日に発生した大規模システム障害に関する調査レポートを公開した。クラウドストレージサービス「Amazon Simple Storage Service」(Amazon S3)を利用する数多くの顧客のサービスが数時間にわたって影響を受けたこの障害の原因は、入力ミスだったという。
AWSは同レポートで以下のように説明している。
Amazon S3チームは、S3の課金システムの動作が遅いという問題の原因を修正しようとしていた。太平洋標準時間午前9時37分、権限を有するS3チームメンバーの1人が、S3の課金プロセスによって使用されている、あるS3サブシステム用のサーバのごく一部を切り離すために、確立された手順に従ってあるコマンドを発行した。残念なことに、このコマンドに引き渡す入力の1つが誤っており、想定していたよりも多くのサーバを切り離してしまった。
このミスによって、US-EAST-1(米国東部:バージニア北部)リージョン(Amazonで最も古くから稼働しており、数多くのデータセンターを抱えるリージョン)におけるすべてのS3オブジェクトが必要とする2つのサブシステムが意図せず停止した。いずれのシステムも完全な再起動が必要となった。再起動と、安全面で必要なチェックの実施に「予想以上の時間がかかった」とAWSはレポートに記している。
これらサブシステムの再起動中、S3はサービス要求を処理できなかった。また同リージョンで、ストレージとしてS3を使用しているその他のAWSサービスにも影響が及んだ。影響を受けたなかには「Amazon S3コンソール」や、「Amazon Elastic Compute Cloud」(Amazon EC2)の新規インスタンスのローンチ、「Amazon Elastic Block Store」(Amazon EBS)のボリューム(Amazon S3のスナップショットからデータが必要となった場合)、「AWS Lambda」が含まれている。
AWSによると、インデックスサブシステムは太平洋標準時間午後1時18分に完全に復旧し、プレイスメントサブシステムは同午後1時54分に復旧したという。この時点までに、S3は通常稼働に戻っていた。
AWSは今回の障害発生を教訓として、こういった問題を引き起こすような誤った入力を防ぐための措置も含め、ツールの修正など「複数の変更」を実施するとしている。AWSはこの他にも、インデックスサブシステムをより小さな単位に分割するという対策に向けた作業に着手している。またAWSは、「AWS Service Health Dashboard」の管理コンソールに変更を加え、AWSの複数リージョンをまたがって稼働するようにもした。2月28日の障害ではダッシュボードにも影響が及んだため、AWSは問題に関する情報を顧客に随時伝えるためにTwitterを利用しなければならなかった。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
多くの企業においてITに求められる役割が、「守り」のコスト削減から「攻め」のビジネス貢献へとシフトしつつある。その中でIBMが提唱する新たなビジョンEnterprise Hybrid ITとは?
デジタルを駆使する破壊的なプレーヤーの出現、既存のビジネスモデルで競争力を持つ
プレイヤーはデジタル活用による変革が迫られている。これを読めばデジタル変革の全体像がわかる!
2017年の取り組みで最も重要なキーワードを1つ選ぶと何ですか?
ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。