経営のトピックス-PR-

ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

2016/03/30
井上 英明=日経コンピュータ (筆者執筆記事一覧

 全日本空輸(ANA)は2016年3月30日、3月22日に発生した国内線システムの不具合について、原因や再発防止策などを公表した。国内線システムの4台のデータベース(DB)サーバーをつなぐ米シスコシステムズ製イーサネットスイッチの故障が原因だった。

国内旅客システムの概要図
全日本空輸の公表資料を基に編集部が作成
[画像のクリックで拡大表示]

4時間40分かけて4台が次々停止

 ANAによれば、3月22日午前3時44分にDBサーバーの1台が停止した。その後2台が停止し、約4時間40分後の午前8時22分に最後の1台も停止。DBサーバーが停止した理由は「正常に機能が働いた」(ANA広報)ため。4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。

不具合発生と対処の経緯
全日本空輸の公表資料を基に編集部が作成
[画像のクリックで拡大表示]

 同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。

 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。

 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。

1台での縮退運転を決断

 4台の完全停止から37分後、ANAは1台のDBサーバーを再起動。だが「2台起動すると2台とも停止する」(同)といった不安定な状況が続いた。

今週のトピックス-PR-

今日のピックアップコンテンツ-PR-

>>もっと見る

ITpro Special

Pick Up!

>>もっと見る

▲ ページトップ

これからのIT投資術-PR-

ピックアップコンテンツ-PR-

>>もっと見る

日経コンピュータ Digital

イベントINFO -PR-

最新号

注目のセミナー

申込受付中!

スッキリ!自信がつく!苦手意識を克服する「書くスキル」講座【4/19開催】

本講座では自分の考えを相手に伝えるための「書くプロセス」を学んでいただきます。