2009年5月12日の立会停止について(最終報告)
HOME > ニュース > 2009年5月12日の立会停止について(最終報告)
2009年5月12日(火)にシステム障害が発生し、11時35分から15時まで立会を停止したことにより、市場参加者を始めとする関係者の皆さまに大変ご迷惑をおかけしましたことを深くお詫び申し上げます。
当社では、この障害に関し、障害発生の翌日には再発防止策を講じるとともに、原因究明に取り組んでまいりました。
この度原因が解明できましたので、以下の通り障害の原因、再発防止策等についてご報告いたします。
1.障害の原因について
本障害は、次の3つの条件が重なったことにより発生したことが判明しました。
@ ルータに備わった障害等解析用のトレース取得機能の設定において、ログを記録すると同時にメーカー標準の出力先にログを出力する設定としていたこと。
A 当該ルータに接続された回線において、5月12日午前2時から行われた回線キャリアの回線借用工事で、短時間に同時切断/再接続を繰り返していたこと。これは、ルータのログを解析した結果より判明しました。
B ルータは、NASDAQ OMX(パッケージベンダー)の推奨に基づき通常よりも短時間間隔でルータ間相互の死活監視を行う設定であったこと。これは、当社取引システムのネットワークは、NASDAQ OMXの推奨に基づき、取引参加者等に影響を及ぼさずに切替えを行うために、一般的なネットワークに比べ短時間間隔でルータ間の死活監視を行うというシビアな障害検知設定(メーカー標準の5秒間隔を1秒間隔に変更)を採用していたものです。
つまり、本障害は、上記Aの回線キャリアの回線借用工事により、ルータは上記@Bの設定としていたことから、当該回線に接続された待機系ルータは午前2時から立会開始時刻以降も高負荷状態が続き、その結果、相互に死活監視を行っていたもう1つの現用系ルータも徐々に高負荷状態となったために発生したものでした。
これらのルータの設定について、システムの運用を行う劾TTデータは、通信障害の迅速な検知及び事後解析が行える保守要件として、ルータのトレース取得機能の出力設定及びNASDAQ OMXの推奨に基づくシビアな障害検知設定は有効な措置であったとしており、また、昨年11月の検収試験から稼動までの6ヶ月間においてルータのCPU使用状況は常に通常レベルで十分な余裕があったことから、ルータの監視方法について問題はないとしています。ただし、同社としては、本番稼動後、統計的な監視を行い、必要に応じ改善する予定であったとしています。
しかし、通常の運用における監視方法として問題がないとしても、本障害の引き金となった回線借用工事のように当社センタに係る特殊な作業等があった場合は、当該作業終了後立会開始までに異常の有無を確認するという細心の注意を払う必要があったと考えられます。
2.再発防止策について
(1) 既に実施中の再発防止策
当社では、既に、同事象が再発しないようルータのトレース取得機能を使用しない設定とし、これと併せて以下の再発防止策を実施しています。
@ 監視体制の確立
当社センタにおいて、5月12日の立会再開以降、ルータの負荷状態を監視する体制を確立し、5月15日には、自動監視ツール・ソフトを導入し、リアルタイムな監視及び閾値を超えた場合には警告を発する体制としています。
A 再発時の復旧手順(立会停止をしない手順)の確立
当社センタにおいて、上記@の監視により同事象を検知した場合にあっても、当該ルータのリブートを行うことにより、立会停止することなく速やかに復旧いたします。
B 再発時の迅速な復旧体制の確立
当社センタ及び当社運用部門(システム部及び市場部)の間において、定期的にルータの負荷状態に関する情報共有を行うとともに、同事象が再発した場合は、速やかに相互の状況確認、状況判断、復旧手続きの指示等が行える体制としています。
C 回線借用工事時の運用の確立
当社センタにおいて、回線借用工事が行われる場合には、その終了後の早朝6時頃にルータの負荷状態を確認し、閾値を超えている場合はリブートを行います。
D ルータ代替機の常備
当社センタにおいて、本障害とは異なる事象によりルータに障害が発生した場合においても、速やかに機器交換による対処ができるよう代替機1台を常備しています。
(2) 今後の再発防止策
当社は、(株)NTTデータから、本障害はルータ自体の不良によるものではなくルータの使用条件が厳しかったことによるものであることから、通信異常時に迅速な事後解析が行えるとの保守要件は維持する方針の下、これまで行ってきたトレース取得機能の出力先をシスコ社標準のものからその他のもの(別のサーバ)に変更することが有効であるとの提案(6月末までに実現予定)を受けています。当社は、同社の十分な検討を踏まえた最終提案を受けて実施の判断を行う予定です。
また、今回の障害事例を踏まえ、さらなる安定稼動を図るために、劾TTデータに対し、類似事象の調査及び今後の運用体制の改善策について、7月末までに報告することを指示しました。なお、当社は、この報告を受けて、必要な対策を実施していきます。
3.社内における処分の内容について
5月27日、当社は市場機能を安定的に提供する責務がある中、立会を一時中断したことに鑑み、代表執行役社長南學政明からの申出を受け、その月額報酬の10%を1か月自主的に返上することといたしました。
今回、本障害の根本原因が判明したことを受け、市場の管理・運営責任を負っている立場から、システムの安定稼働のための運用管理体制が十分でなかったとの認識の下、上記の措置に加え、当社取締役会は、代表執行役社長南學政明に対し厳重注意を行いました。また、システムを担当する常務執行役早川一成及び執行役福井裕一に対しては、代表執行役社長から厳重注意を行いました。
最後に、この度の障害におきましては、関係者の皆様に大変ご迷惑ご心配をおかけしましたことを重ねてお詫び申し上げます。