DMMの一部サーバでHP DL180 G6シリーズを導入しているのですが、
さらにその一部(40台程度かな?)のサーバで125日前後の周期でサーバがハングアップし困っていました。
つい先日、この事象についてHPから原因が分かったと連絡がありましたので共有したいと思います。
DMMでもすべてのサーバで発生しているわけではなく特定の決まったサーバで発生する事象です。
また、別の会社では250日前後でハングすると聞いたことがあります。dmmでは125日前後
HP社からはとりあえず、
「125日になる前に再起動するオペレーションとしてください。現在、すべてのお客様に定期的に再起動するようにご案内しています」
と言われておりました。納得いかないながらも、このようなオペレーションとしておりました。
そうこうしているうちに、2年近く経ち、ようやく原因が分かったとのこと、
嬉しいやら、いまさら遅いやらいろんな感情が入り混じりながらも、原因を突き止めた関係者一同には本当にお疲れ様でしたと声をかけたい思いです。本当です。^^;
原因ですが、
Smart ArrayからSpare DiskにHealth Checkが1日1回行われます。
この際、情報が蓄積されるのですが、その情報がキャッシュを埋め尽くした時点で0xABが発生しハングしてしまう。
発生周期はSmart Arrayのキャッシュサイズに依存
>>キャッシュサイズ<<
0MB 64日ぐらいの周期でハング
512MB 127日ぐらいの周期でハング
1GB 252日ぐらいの周期でハング
DMMで購入しているraidカードのキャッシュサイズは1GBですが
Spare Diskを2本設定しているため127日前後でハングしていたものと思われる。
ちなみに、Spare Diskを設定していないサーバではハングが発生しない。
とのことです。
DMMではまさにスペアディスクを利用していたので、
この問題がFIXされるまでは構成を変更して対応する必要がありそうです。
幸いArray Configutarion Utilityからオンラインでスペアディスクを外せるようなので、
構成変更による対応やオンラインディスクの取り外しで対応していこうと考えています。
台数が少ないと通常のOSハングかなあと思いがちですが、
DL180G6をご利用の皆様はハングの際、
カーネルの吐く情報に0xabがないかどうか注意深く見てみてくださいね