メーカーは「内部情報なのでコマンド等では確認できない」と言っていたが、いろいろデータを収集して分析したら特定プロセスのCPU時間とクラッシュ時刻に相関があることを発見。 定期的にプロセス情報を収集しゆらぎを加味しつつしきい値を超える時刻を算出。±90分の精度で予測が可能となった。pic.twitter.com/3w8FiGi3Tr
-
- Show this thread
-
この分析によりルート量などによってプロセスの負荷が変わるためカウンタが溢れるタイミングもバラけることがわかり一安心。 またオペレーターは「お、そろそろ吹っ飛ぶぞ」とニヤニヤしながら障害を待つことができ、さらにバグによるものだと断定できるので対応が要らず大きな省力化となった。
Show this thread -
あとでメーカーのエンジニアに見せたら「リスタートのトリガーになるのはまさにこのプロセスです、よくわかりましたねぇ」と笑いながら驚いていた。 まともな分析基盤がなかったため、MySQLに溜め込んだ数十GBのデータを激重クエリでフルスキャンするという泥臭い作業をしたなぁ…。
Show this thread End of conversation
New conversation -
Loading seems to be taking a while.
Twitter may be over capacity or experiencing a momentary hiccup. Try again or visit Twitter Status for more information.