Post

Conversation

雑に言えば、パソコン1台で10年に1回発生する頻度の障害はサーバー数が100あると毎月のように起きる HDDやSSDが5年に1度壊れるとしたら1000台あると毎日平均1.8台壊れて交換や復旧の作業が発生する 現代のシステムはネットに繋がっているし外部要因で何かが起きたりもする 現場にあるシステム数が増えると掛け算で割り込みが増える Facebookの16384ノードGPUクラスタはおよそ3時間おきにハードウエア故障でAIのトレーニングが中断、機材のメンテなどが発生 さすがにこの規模は世の中になかなかないが tomshardware.com/tech-industry/ 機材やバックアップテープを台車に乗せて、落としたり、極力振動を与えたりしないよう運ぶ仕事に対して、鉄のくそ重い扉や段差が行く手を阻む シフト勤務は見回りや一定間隔での目視確認などの定時業務、非シフトで夜に熟睡している人々のサポートもしてることが多い クレカや公共料金などの帳票などある現場だと毎晩紙を運んでるかも 遊撃士が設定した雑なアラート設定によって毎時、下手すると10分に何回もメールが来たり回転灯が回ったり警告音が鳴ったりして、そこから本当に対応しないといけないアラートを探しながらの仕事になったりする
Quote
JUN-SUZU
@JUNSUZU0507
Replying to @hasegaw
そんなに頻繁にトラブル発生するもんなんですか?