RAID系のトラブルは一通り前職で対応したなーと振り返る
Level 1. ドライブ単体障害
RAID1や5ならリビルドすればヨシ!
Level 2. キャッシュバッテリー障害
キャッシュメモリー用のバッテリーは結構壊れる、と言うよりもバッテリーの経年劣化
バッテリーがコントローラーファームウェアによって意図的に無効化され、芋づる式にキャッシュメモリーもWrite BackからWrite Throughになりパフォーマンスが落ちた!というお問い合わせがしばしば。
(RAIDコントローラーバッテリーは画像1枚目参照)
Level 3. コントローラー障害
OS領域がRAIDコントローラー配下にいる場合はOS起動不可になる
RAIDコントローラー交換すれば、既存の仮想ディスク構成は自動インポートされる事が多いので、大抵治る
最近のサーバーはOS領域はM.2 SSDに別入れが多いのでこの手の障害は減っている気がする
※画像2枚目
Level 4. 複数本ドライブ障害
RAID1やらRAID5なんかで2本のドライブがFailになってるケース
これ、同時にFailのケースもあるけど、1本障害出たままほったらかされて、そのまま2本目がFailしてしまい、そこで初めてハードウェア障害に気がつき、かつ管理者も『あれ!2本障害だ!』と気がつくパターン
RAIDコントローラーのログ読めば障害時系列わかるし、なんならドライブを強制オンライン(ザオラル)すれば生き返るかもしれないのでワンチャン助かる
が、ドライブが本当に壊れている場合はまたすぐにFailになるので割と賭けではある
※画像3枚目