Azure DNSの大規模障害、原因は「ネットワーク機器のバグ」:MSが改善策を発表

羽野三千世 (編集部) 2016年09月18日 19時06分

  • このエントリーをはてなブックマークに追加

 米Microsoftは日本時間9月18日、9月15日に発生した「Azure DNS」とその関連サービスの大規模障害について(第一報続報)、障害の根本原因と今後の改善策をまとめたレポートを発表した。障害発生当初、同社が「ネットワークトラフィックへのスパイクアクセスが発生した」と報告したことからDDoS攻撃などの可能性も憶測されていたが、レポートによれば、今回の障害原因は「ネットワークデバイスのソフトウェアのバグ」だという。

DNSの接続障害は1時間で復旧

 今回の問題は、ネットワークデバイスのバグにより、ネットワーク管理ポリシーで適切に処理されなかったネットワークトラフィックのスパイクにより引き起こされた。この問題によって、Azure DNSが正常なDNS要求を不正な形式であると誤って特定することになり、15日20時18分からグローバルでAzure DNSに接続障害が発生した。

 緩和策は、誤ったデバイスの振る舞いを打ち消す構成変更をすることであり、この緩和策を講じた結果、15日22時(日本時間)には、米国中部リージョンのAzure SQL Database、SQL Data Warehouse(DWH)、およびAzure SQL Databaseに依存する同リージョンのHDInsightとMedia Servicesを除き、DNSへの接続障害の影響を受けたすべてのAzureサービスがこの時点で回復している(この時点で障害発生から約1時間40分)。

 米国中部のAzure SQL DatabaseとSQL DWHへの影響が継続したのは、DNSの接続障害が緩和されたあとに接続を再確立する要求を、想定よりも多数同時に受信したためだった。Microsoftの対策チームが要求量を制御した結果、16日2時15分(日本時間)までにはすべての要求が正常に処理され、米国中部のAzureサービスも全面復旧した(この時点で障害発生から約6時間)。

Azure SQL Databaseなどの可用性が約60%減少

 Microsoftは、今回のDNSの障害の影響で、Azure SQL DatabaseとSQL DWH、およびそれらに依存するHDInsightとMedia Servicesの可用性が約60%減少したと推測している。そのほかのDNSに関連するサービスについても可用性劣化があった可能性があるとしている。さらに、米国中部リージョンの顧客の一部は、DNSの問題が緩和されたのちも継続して影響を受けていた可能性がある。

 Azure SQL DatabaseとSQL DWHへの接続には、2回のDNS探索を必要とするため、今回のDNSの問題の影響を大きく受けた。

 すべてのAzure SQL DatabaseとSQL DWHへの接続要求は、最初に「コントロールリング」と呼ばれるAzureにホスティングされたサービスによって処理される。コントロールリングは、Azureのどのサービスが接続要求されたデータベースやDWHをホスティングしているのかをトラッキングして、そのサービスのDNS名をクライアント側へ返す。それからクライアントはDNS探索を行い、その位置へ接続する。今回のDNSのサービス停止期間中、Azure SQL DatabaseとSQL DWHへの接続パスでのDNS探索は、約75%の割合で失敗した。

DNSの障害検知を改善、SQL DatabaseのDNS依存度の見直し

 Microsoftでは、Azureプラットフォーム上で将来同じ事故を起こすことがないように、今回のケースでは次の改善策を実施済み、あるいは今後実施する。

  • ネットワークデバイスのバグを修正し、テストと有効性確認が完了次第すべての地域にリリースする(ステータス「進行中」)
  • DNSサービスの不能状態をより速く検知するよう警告を改善して、解決までの時間を最小化する(ステータス「進行中」)
  • ネットワークデバイスのバグを迂回するため新しい構成を設定する(ステータス「完了」)
  • Azure SQL DatabaseとSQL DWHのレコードに対してTTLを増加させることによりDNSへの依存度を下げる(ステータス「進行中」)
  • ダウンタイムを最小化するため、DNSやそれに関連するAzureサービスにおいて顧客向けの回復機能の選択肢を増やす(ステータス「レビュー中」)

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
藤本恭史「もっと気楽にFinTech」
Fintechの正体
内山悟志「IT部門はどこに向かうのか」
情報通信技術の新しい使い方
米ZDNet編集長Larryの独り言
谷川耕一「エンプラITならこれは知っとけ」
田中克己「2020年のIT企業」
大木豊成「Apple法人ユースの取説」
デジタル未来からの手紙
モノのインターネットの衝撃
松岡功「一言もの申す」
三国大洋のスクラップブック
大河原克行のエンプラ徒然
今週の明言
アナリストの視点
コミュニケーション
情報系システム最適化
モバイル
通信のゆくえを追う
スマートデバイス戦略
セキュリティ
ネットワークセキュリティ
セキュリティの論点
スペシャル
de:code
Sapphire Now
VMworld
HPE Discover
Oracle OpenWorld
Dell World
AWS re:Invent
PTC LiveWorx
デプロイ王子のテクノロジ解説!
古賀政純「Dockerがもたらすビジネス変革」
誰もが開発者になる時代 ~業務システム開発の現場を行く~
さとうなおきの「週刊Azureなう」
より賢く活用するためのOSS最新動向
「Windows 10」法人導入の手引き
北川裕康「データアナリティクスの勘所」
Windows Server 2003サポート終了へ秒読み
米株式動向
Windows Server 2003サポート終了
実践ビッグデータ
中国ビジネス四方山話
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化