本当にあったHadoopの恐い話Blockはどこへきえた？（Hadoop / Spark Conference Japan 2016 ライトニングトーク発表資料）

3. 3Copyright © 2016 NTT DATA Corporation 何はともあれ、まずはログ消えたブロックの一覧はNameNodeのWeb画面で確認できる。この情報からNameNodeのログを調べた。消えたブロックを追いかけて追いかけて。。。 (調査対象 : トラブル発生日から直近1か月分のHDFS関連のログ) すると分かったことは３点。 1. 事象発生前に、メンテ中だったDataNodeを組み込んだ。組み込んだDataNodeはメンテ前のブロックを保持していた。 2. DataNodeのログには、NameNodeからのブロック削除指示の後、再度ブロックを追加するようなメッセージが出力されている。特にNameNodeから追加指示は飛んでいないので、何故？ 3. DataNodeでの当該ブロックの削除は、指示を受けた2時間後に完了している、何故？矛盾を抱えつつも、ログの出力内容＋Hadoopソースコードから事象を組み立てた。

4. 4Copyright © 2016 NTT DATA Corporation おさらい : HDFSのレプリケーションについて  HDFSのブロックは、設定されたレプリケーション数を維持するように動作する 1. 設定されているレプリケーション数よりも少ない状態の場合 → レプリケーション数に達するまで作成 2. 設定されているレプリケーション数よりも多い状態の場合 → レプリケーション数に達するまでレプリカ削除今回の動作は、2. に関連する動作に着目。

5. 5Copyright © 2016 NTT DATA Corporation Hadoop内部の動作 - DataNodeのブロックを削除する流れ１ DataNode deleteBlock ブロック管理情報対象ブロック情報をブロック管理情報から除去 DataNodeが扱っているブロック一覧をメモリ上で記録 remove ブロック削除用スレッド対象ブロックの実データ削除指示 Block × 削除非同期で削除

6. 6Copyright © 2016 NTT DATA Corporation Hadoop内部の動作 - DataNodeの定期的なタスク DataNode deleteBlock ブロック管理情報 remove remove ブロック削除用スレッド対象ブロックの実データ削除指示 Block × 削除削除に時間が掛かる (処理・IOネックなどが原因) 実データチェックスレッド check 再登録再登録定期的に実行 (別名: DirectoryScanner) 消したはずのブロック情報が再び管理される

7. 7Copyright © 2016 NTT DATA Corporation Hadoop内部の動作 - DataNodeの定期的なタスク DataNode ブロック管理情報 remove remove ブロック削除用スレッド対象ブロックの実データ削除指示 Block × 削除 Directory Scanner check 再登録再登録ブロック情報報告スレッド定期的に実行 (別名: BlockReport) 管理情報チェックブロック情報を NameNodeに送信消したはずのブロック情報が NameNodeに送信される

8. 8Copyright © 2016 NTT DATA Corporation 誤ったブロック情報がHadoopクラスタ全体に伝播する NameNodeイベント (ブロック管理情報) DataNode1 DataNode2 DataNode3 DataNode4 実体管理情報実体管理情報実体管理情報実体管理情報 1 超過レプリカにより DataNode4に削除指示 ○ ○ ○ ○ ○ ○ ○ ○ 2 DN4で問題発生、再度超過レプリカ、DN2に削除指示 ○ ○ ○ ○ ○ ○ × ○ 3 DN2で問題発生、3度超過レプリカ、DN1に削除指示 ○ ○ × ○ ○ ○ × ○ 4 DN1で問題発生、4度超過レプリカ、DN3に削除指示 × ○ × ○ ○ ○ × ○ 5 DN3で問題発生、5度超過レプリカ、DN4に削除指示 × ○ × ○ × ○ × ○ 6 DN4 BlockReport × ○ × ○ × ○ × × 7 DN1 BlockReport × ○ × × × ○ × × 8 DN3 BlockReport × × × × × ○ × × 9 DN2 BlockReport × × × × × × × × 10 MissingBlock状態 × × × × × × × ×

11. 11Copyright © 2016 NTT DATA Corporation まとめ  Hadoop = サーバのリソースを使い倒すことが前提の構成 • でも、高負荷状態は、いろいろな問題を引き起こしやすい • でも、大量データを扱うと、いろいろな問題を引き起こしやすい  問題は発生することを前提とした、運用スタイルを整えること • HDFS上データが欠損しても再生成できる仕組み(、または割り切ること) • ログ精査、リソース情報の取得  あまり、サーバをいじめないでくださいね。 • サーバスペックに応じた、やさしい設定・リソース割り当て • 無邪気なアプリケーションは、まずは手元の環境＆少量データで確認してね！  バージョン選定は大切 • 問題の改修は、新しいバージョン優先 • 根が深い問題は中々改修されづらい＆バックポートされにくい

本当にあったHadoopの恐い話Blockはどこへきえた？（Hadoop / Spark Conference Japan 2016 ライトニングトーク発表資料）

NTT DATA OSS Professional Services