性能管理への取り組みとES/1導入事例紹介
1.性能管理への取り組み
弊社では、お客様に対して高品質で信頼性の高いサービスを提供するため、以下の認証に準拠してシステム開発や運用を実施しています。
①ISO9001 (QMSの規格)
②ISO27001(ISMSの規格)
③ISO20000(ITSMSの規格)
性能管理に関しては、ITSMSに準拠して取り組んでいます。ITSMSでは、顧客の求める品質レベルのITサービスを安定的に供給する仕組みを確立し、その有効性を継続的に維持、改善していくことが求められています。弊社ではITSMSに則り、顧客に不安を与えないように、確立されたプロセスでPDCAを実践しています。

2.ES/1導入背景
2011年5月に、インターネットトレードシステム(※1)を刷新しました。インフラ基盤を大幅に刷新したため、前例のない性能問題が発生した際に、原因究明が長期化することを懸念し、問題の早期解決ツールとしてES/1を導入しました。その他にも、運用段階におけるボトルネック把握や、将来予測にも活用できることを期待して導入しました。
※1:パソコン、携帯を利用して、インターネット経由で投資家からの注文をリアルタイムに執行するシステムです。

3.ES/1導入事例
以下、ES/1の導入事例を3つご紹介いたします。
【事例1:問題の切り分けと早期解決】
①事象
「ロードバランサによる振り分け警告」というシステムメッセージを検知しました。警告が発生した
時刻は、9:30、11:30、15:30で、その他警告メッセージはありませんでした。対象は全てWebサーバ
4号機であったことから、4号機の経路についてES/1で調査を開始しました。

②ES/1による調査
まずリソース(CPU、メモリ)の調査をしました。調査の結果、全サーバともCPU使用率、メモリの
空き容量ともに十分に余裕がある状態でした。
次に、負荷分散に問題がないか、クライアントホスト数を確認いたしました。Webサーバ4号機と
他のサーバにおけるクライアント数の推移に差異がなかったことから、負荷分散にも問題はなく、
正常に行われていました。またアクセス件数についても、ピークは取引開始の9:00になっており、
問題が発生した時間帯のアクセス件数は正常でした。
次に、Web画面応答時間を確認しました。その結果、エラーを検知した時間帯で、応答時間が
2.5秒以上と非常に長くなっていることが分かりました。同様に異常を示すグラフが他にないか
調査をしたところ、WEBサーバ4号機の経路上にあるAPサーバ4号機のデバイス応答時間が、
Web画面応答の異常時と同一時間帯で長くなっていることが確認できました。
[Web画面応答時間とデバイス応答時間のグラフ]

③問題の特定と解決
当初はロードバランサの振り分け不正によって、サーバへの処理が集中してエラーが発生したと
考えていましたが、ES/1による調査結果からAPサーバのディスクI/O処理に問題があることが
判明しました。APサーバでは共通の外付けディスクを使用していることから、原因はAPサーバ
4号機側にあると推測し、APサーバと共有ディスクの接続部位であるFCスルーカードを交換する
ことで、問題を解決できました。
ES/1で時間軸が同じグラフを比較することができたので、関連性を容易に把握することができま
した。
【事例2:過去の履歴より障害を未然防止】
①事象
ITSMSの定期調査のため、ES/1のグラフを確認していたところ、「Webサーバのswapサイズ
が0バイト」であることが判明しました。
②ES/1による調査
通常、メモリが上限まで使用された際に、一時的にメモリの代わりとして使用されるため、
swapは徐々に下降する推移となるはずです。しかし、詳しくグラフを確認したところ、
Webサーバのメモリには十分空きがあるにも関わらず、サービス開始時から0バイトとなって
いることが分かりました。
[swapとメモリのグラフ]

③問題の特定と解決
過去のグラフの履歴より、swap領域が0バイトになった時期が、運用・保守担当者による障害
復旧のリカバリ演習の実施時期と一致しました。確認したところ、リカバリ演習時にswap領域の
設定が無効化されていたことが分かりました。
ES/1を導入していない他のサーバでも調査を実施したところ、同様にswap領域が外れている
サーバが存在しておりました。こちらのサーバは、クラスタ構成で過去原因不明のフェール
オーバーが複数回発生していました。swap領域を有効化することで、フェールオーバーは解消
されました。
Webサーバでも事前に異常を検知できていなかった場合、同様の障害が発生していた可能性が
あることから、問題を未然に防止することができました。
【事例3:SLAの報告に活用】
SLA契約において、Web画面の応答時間を報告する必要がありましたが、ES/1導入前は運用担当者が手動でレスポンス値を計測して、その平均を報告していました。
ES/1導入後は、HTTPログより実際の応答時間(※2)をCSVで出力できるようになりました。情報精度が向上したことで、お客様に提供するサービスレベルも向上しました。
※2:Web、AP、DBサーバでの合計処理時間を指しています。ネットワーク、クライアントでの処理時間は含まれておりません。

4.まとめ
ES/1の導入効果として、以下のメリット得ることができました。
①性能問題発生時の原因切り分けを実現し、早期解決を実現
②履歴の蓄積により障害防止を実現
③生産性の向上、サービスの向上を実現
|