経営のトピックス-PR-
判明、ANAシステム障害の真相
大型のシステム障害の詳細が見えてきた。全日本空輸(ANA)が2016年3月22日に起こした国内線旅客システム「ANACore(エーエヌエーコア)」のシステム障害では全国49の空港で搭乗手続きができなくなり、ANAと提携航空会社5社の合計で719便、7万2100人以上に影響を及ぼした。インターネットや予約センターでの予約などもできなかった。
ANAは障害発生から8日後の3月30日に経緯や原因を公表、さらに4月11日に弊誌のメール取材に応じ、一段詳しい真相が判明した。
4台のSuperdomeをRACでクラスタリング
今回のシステム障害の中身は3月20日のニュースで報じた通り、4台のデータベース(DB)サーバーが停止したというもの(関連記事:ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン)。今回、弊誌の取材でシステム構成が明らかになった。
DBサーバーは米ヒューレット・パッカード・エンタープライズ(HPE)のUNIX「HP-UX 11i B.11」を搭載する「HP Integrity Superdome」を使い、データベース管理システム(DBMS)は米オラクルの「Oracle Database 11g」を使っていた。ANAが使うSuperdomeは1.66GHzのItanium2を12個と、64Gバイトのメモリーを搭載する。
4台のDBサーバーはオラクルの「Oracle RAC(Real Application Clusters)」を使ってクラスタリングして、可用性と性能を向上させていた。分散したDBサーバーが協調して処理を進める場合、ストレージ上のデータを共有する「シェアードエブリシング(共有ディスク、シェアードオールとも呼ぶことがある)」や、それぞれのDBサーバーにのみデータを持つ「シェアードナッシング」と呼ぶアーキテクチャーを採る。RACの場合は前者の「シェアードエブリシング」である。
ANACoreではストレージは2台のミラー構成を使っている。4台のDBサーバーはそれぞれに同時に書き込む。この時、ストレージ上のデータが一貫性を保って参照・更新されるように、4台のDBサーバーは高速な専用ネットワーク(インターコネクト)を通して、メモリー上に展開したデータなどを転送し合う。今回、インターコネクトで使っていた米シスコのスイッチ「Catalyst 4948E」が故障し、最終的にDBサーバーの4台停止につながった。
1時間で縮退運転開始
ANAが3月20日に公表した資料と取材の回答結果、日本ユニシスがANACore稼働後に公表した技術論文集「ユニシス技法」の通巻118号「特集:エアラインリザベーション」を基に、改めてシステムダウンと復旧の経緯を時系列でみていく。なおユニシス技法の内容はANAも確認済みで、システム構成も基本的には変わっていないが一部で機器を増設しているという。
最初のDBサーバーが停止したのは3月22日の午前3時44分。ここから1台、また1台と停止し、約4時間40分後の午前8時22分には4台とも停止した。始発便はとうに出発している時間帯で、全国の空港で搭乗手続きに遅れが生じていた。最初に欠航したのは羽田空港を午前9時55分に出発する秋田空港行き403便だった。
連載新着記事一覧へ >>
- AWSとIoT向け格安SIMでリピーター3割増、和食店がITで実現したおもてなし (2016/04/12)
- 薄くて機動的なiPad Pro 9.7と、ひたすら大きいiPad Pro 12.9で悩む (2016/04/11)
- ディープラーニングのすごさを手軽に体験 (2016/04/08)
- 企業システムが分かるクラウドエンジニアが足りない (2016/04/07)
今週のトピックス-PR-
ITpro Special
What's New!
Pick Up!
- 西脇資哲が解説!クラウド時代の意識改革
- 経産省が明言「セキュリティは経営課題」
- 仮想化とハイブリッドクラウドに関する調査
- ライセンス契約管理と自動化のポイント
- Windows 10デバイス出そろう
- 対談メディーバ×オープンストリーム
- OSSを活用!選ばれるミドルウエアとは?
- IT部門こそイノベーションの「主役」である
- IT部門が管理しないグループウエア≫詳細は
- ベンダー生き残りのカギはここにある!≫
- デルタ航空やコカコーラに学ぶデジタル経営
- 3つの施策に見える、NECが躍進する理由
- 認証印刷の先へ 紙からの情報漏洩を防止
- BIG-IPでセキュリティPDCAを確立
- 身近に迫るサイバーテロの危険をどう防ぐか
- IoTの可能性を広げるマーケットプレイス
- ITインフラのコスト削減方法に関する調査
- ポケットサイズの「企業の重要資産」とは?
- わずか1行のコードがITインフラを制御可?
- 調査結果が示す!モバイルワークのリスク
- 48時間で影響分析完了!? ERP移行の新常識は
- レノボとニュータニックス、成長市場で協業
- Windows10への引っ越しツール
- “アイデアエコノミー”の時代がやってきた
- 池澤あやかがIBM Bluemix Watson APIを学ぶ