- みずほ銀行:システム障害に関するお知らせおよびお問い合わせ先
- http://www.mizuhobank.co.jp/oshirase.html
- 中段の「システム障害特別調査委員会の調査報告書について」のリンク
直リンクはこれ(5/20掲載)
前半しばらく「グダグダ鬱陶しい能書き」が続きますが9ページ目の「3. 本障害発生以前のシステム障害及び対応状況」あたりからギアが入って、11ページ目の「4. 本障害の発生事実」からトップギアというかちょっとしたヘル絵図であります。
……ああ、その前にここを引用しておこうかな、4-5ページの「2. システムの概況」内「(3) 次期システムの概要」箇所。
(3) 次期システムの概要
次期システムについて、ビジネス環境の急激な変化に対応すべく、肥大化・複雑化した現行システムを新たなシステムとして再構築するために、2004 年から MHFG を中心に検討が開始された。
2004 年当初の「次期システム基本計画書」では、第 1 ステップは 2005 年度内に、第2 ステップは 2006 年度内にそれぞれ完了させ、第 3 ステップは投資計画上 2011 年度内に完了させることを目指していた。しかし、第 2 ステップの実現が 2010 年度までかか5ったことから現在第 3 ステップに入っているが、完了に至っていない。
スピード感のある経営()笑
……みずほの規模になったらデカイのは判るがこの遅さの時点で「意思決定プロセスの何処かにバグがある」と疑っていいだろJK。
では本題。
無断転載禁止とか特に書いてないので、「4-(1)-ア」を長々転載。
(ア/イ/ウ/エ/オ/カ/キ/クとあり、アだけそんなに面白くないけどその先超やばい)
⇒全文転載しようと思ったら、pdfをまんまコピペするだけだとうまく行かなくて整形がめどいのでア~エまでにします。悪しからず。
4. 本障害の発生事実
(1) 発生事象と復旧措置ア 為替処理の遅延
3 月 15 日(火)から 24 日(木)にかけて、大規模な為替処理の遅延が発生した。上記の為替処理の遅延に至る障害の発生経緯は以下のとおりである。
(ア) 預金・取引内容照会の不全
3 月 11 日(金)に発生した東日本大震災発生に伴い、A 社の義援金口座 a へ大量の振込が寄せられた。この大量振込により、14 日(月)10:16 時点で取引明細件数がシステムの仕様であるオンライン照会のリミット値を上回り、営業店端末を利用した義援金口座 a に対する「預金・取引内容照会」機能が利用できない状況が発生した。
MHBK は、上記 A 社に対して、通帳記帳が不要である「リーフ口」の義援金口座を法人扱いで新規開設するとともに義援金口座に関する案内を新口座へ切替えるよう要請し、14 日(月)11:30 に新規口座開設を完了した。(イ) 夜間バッチの異常終了及び長期化(3 月 14 日(月)分)
上記(ア)で預金・取引内容照会の不全が発生した義援金口座 a に対して、預金・取引内容照会の不全の発生後も多数の振込依頼が継続し、これらの処理件数は、夜間バッチにおいて、1 口座あたりの処理可能な件数のリミット値を上回ったため、3 月 14 日(月)22:07 に夜間バッチが異常終了した。また、異常終了時に処理結果データの一部が欠落する事態も発生した。
上記の夜間バッチの異常終了後、MHBK は、原因となったリミット値を拡大し夜間バッチを再実行する復旧措置を実施した。しかし、後続の処理には上記の異常終了時に欠落した処理結果データが必要であったが、このデータの復元作業が難航し、約 8 時間を要したため、夜間バッチが長期化するに至った。(ウ) 夜間バッチの中断及び手動化(3 月 14 日(月)分)
3 月 14 日(月)分の夜間バッチが上記のとおり長期化した結果、夜間バッチ終了後の営業店端末の開局準備の時間が不足し、営業店端末を利用した取引開始時刻が遅延する懸念が生じた。これに対し、MHBKは通常時間での営業店端末開局を行うべく、手順書にしたがって 15 日(火)7:00 頃に夜間バッチを中断し、営業店端末の開局準備及びDJS切替の実行に着手した。
夜間バッチは、通常は自動運行によりバッチジョブを計画・実行する仕組みであったが、中断及び DJS 切替を実行した結果、上記の自動運行を利用することができなくなった。そのため、システムが正常化するまでの間、手動で夜間バッチを実施することとなったが、これにより膨大な作業が発生し、処理失念や誤処理による多数の副次的障害を引起こした。(エ) 夜間バッチの異常終了及び長期化(3 月 15 日(火)分)
B社において、3 月 15 日(火)から携帯電話を用いた振込サービスによる義援金が呼びかけられた結果、15 日(火)15 時以降、義援金口座bに対して大量の振込が発生した。MHBKの当該サービス担当者は、EBISで受入可能なデータ量を事前に確認したものの、15 日(火)付の夜間バッチにおいて、1 口座あたりの処理件数のリミット値を上回ったため、16 日(水)7:17 にシステムが異常終了した。
上記の 15 日(火)分の夜間バッチの異常終了発生のエラーメッセージが 14 日(月)分の義援金口座 a の夜間バッチに対するメッセージと類似していたため、MHBK は、前日の復旧処理を踏襲してリミット値の拡大措置を講じ、夜間バッチを再実行した。しかし、再実行の結果、同様の異常終了が発生したため、16 日( 水 )19:20 から 17 日(木)4:13 までの間に、4 度にわたり更にリミット値を拡大するなどの対策を施した上で再実行したが、異常終了は解消しなかった。そこで、MHBKは、義援金口座 b が原因であるものと判断し、一時的に当該データを除外した上で再実行し、17 日(木)5:20 に、義援金口座 b のデータ以外の夜間バッチを完了した。
また、17 日(木)13:30、MHBK は、夜間バッチの手動化に起因して抑止されていた不要データの削除処理を必要なデータを退避した上で実施した。しかし、17日(木)22:46 に、この削除処理により後続作業で必要なデータが喪失していることが判明した。これに対応するための喪失データの特定に 5 時間、データの再作成に 11 時間をそれぞれ要し、夜間バッチを更に遅延させる要因となった。最終的に、15 日(火)分の夜間バッチは、19 日(土)19:05 に終了した。
絵 に 書 い た よ う な 玉 突 き。
シンジ君みたいに「動け! 動け!」って半狂乱なオペレータが目に浮かびます。
(むしろ「これはだめかもわからんね」か)
あとそれから、「第4 発生原因の分析」の項もなかなかテンション高いです。
現にこういうトラブルが起こった以上、現状に対して批判的なスタンスになるのは避けられないとは思いますが、外部の有識者が担当とはいえあまりにあまりなバッサリぶりは中々清々しいw
第4 発生原因の分析
1. 原因分析の概要
本調査の結果判明した事実により、各種障害を引起こした原因を検討すると、システム障害発生前及び発生後間もない時期の担当者による基本的な過誤(例えば、リミット値の認識不十分、システム全体の理解不足、これらによる回復作業時間見積りの誤りやDJS 切替等の判断の誤り等)によるところが大きいものと認められる。しかしながら、更に、このような基本的過誤をもたらし障害の影響を拡大させた原因を検討すると、システム機能上の不備、未然防止に至らなかったシステムリスク管理態勢上の不備、復旧対応における緊急時態勢の不備、人材の育成・配置の遺漏並びに経営管理及び監査の不備等が指摘され、再発防止策を検討する上では、このような基本的過誤をもたらした原因を明らかにすることが必要である。
以下、このような観点から障害を発生させ、影響を拡大させた原因を検討する。
結果が出てからならなんとでも云える、とはいうものの、言及されてる範囲ではそれなりに妥当げな気はします。
……で、あとはこの正論を如何に握りつぶすかというエクストリームスポーツに期待w
……東電もこういうレポート出さないかなぁ……。
……無理だろなぁ……w
確かに最初から見始めるとテンションの変化も感じられて面白いですね。
私も某社データセンターのオペレーター時代、半狂乱になる事件がなくて本当に良かったと思っています。