「負荷を過小評価していた」――Google、Gmail障害の原因を説明
Gmailの障害は、Googleが負荷を低く見積もっていたために、トラフィックを転送するルータが過負荷状態になったことが原因だった。
米Googleは、9月1日にGmailで起きたサービス障害の原因について、ルータの過負荷によるものだったことを明らかにした。
障害の発端となったのは、同日朝に定期アップグレードのため、Gmailの一部サーバをオフラインにしたことにあると同社は説明している。これらサーバがオフラインになっている間、GmailのWebインタフェースはほかのサーバにトラフィックを送る。このときに、リクエストルータ(トラフィックを適切なGmailサーバに転送するサーバ)の幾つかが過負荷状態になった。Googleが最近リクエストルータに変更を加えた際に、「負荷を少し過小評価していた」ためだという。
過負荷状態のリクエストルータからほかのルータにトラフィックが転送され、さらに過負荷状態のルータが増え、数分のうちにすべてのリクエストルータが過負荷になった。この結果、Gmailサーバにリクエストが転送されず、ユーザーがGmailにアクセスできなくなった。ただし、IMAP/POPアクセスの場合は違うルータを使っているため、通常通りに動いていた。
Googleのエンジニアリングチームはキャパシティ不足が問題であると気づき、リクエストルータを追加してサービスを復旧させたという。
Googleは、Gmailの障害は約100分に及んだとしている。同社は初めこれを「小さな問題」と呼んでいたが、「重大な問題」として扱うと謝罪している。同社は既にリクエストルータを増やすなどの対策を取っており、ほかにも再発防止策に取り組むと述べている。
Copyright© 2009 ITmedia, Inc. All Rights Reserved.
新着記事
- 検知は1カ月に2億4500万件:あらゆる脅威がまん延した上半期のセキュリティ動向、シマンテックが総括(9/4 08:45)
- 買収完了は2010年1月まで先延ばしか:OracleのSun買収に関し欧州委員会がさらなる調査を開始(9/4 08:15)
- オープンソースソフトウェアの育て方:バグ追跡システムのライフサイクルを再考する(9/4 08:00)
- Mac OS X 10.5のアップデート公開、Javaの脆弱性に対処(9/4 07:52)
- 9月のMSパッチは「緊急」5件、いずれもWindowsが対象(9/4 07:38)