mysqlcasual9

MySQL Clusterの
トラブル事例
MySQL Casual Talks vol.9
2016/01/22

自己紹介
• いとうひろゆき
• サーバ運用・保守が仕事
• MySQL好き、酒好き
• (最近ベンチマークおじさん言われる)

今回のLTについて
• 2014年6月に発表した以下のスライド以降に
遭遇したお話になります
• http://www.slideshare.net/hiroi10/mcct2-
pub

お題
• Free Memoryとは？
• 突如滞留するクエリ1
• 突如滞留するクエリ2

MySQL Clusterでは
ndb_mgm> all report memoryusage;
Connected to Management Server at: ***.***.***.***:1186
Node 1: Data usag...

こんなログがSQLノードに
1140 [ERROR] /usr/local/mysql/bin/mysqld: The table ‘t1' is full
1140 [ERROR] /usr/local/mysql/bin/mysqld: T...

対応
• DataMemoryを増やしてローリングリスタート
• 何もせずにローリングリスタートしても使用
不可領域の回収が行われるのか一時的には直
る
• データ量が多いテーブルのレコードを削除

定期的に一定時間クエリが滞留
• 最初原因が不明だったが、LCPが終わったタ
イミングで復旧していることが判明
• この症状が発生したMySQL Cluster環境では
FragmentLogFileSize(REDOログ)が小さいま
まだった

MySQL Clusterの動き
• 更新が多い環境ではほぼ常時LCPが行われる
• LCPはDataMemoryに入っている情報をファイ
ルとして書き出す処理(永続化のため)。最近の
バージョンでは２世代分保存する。
• 書き出している間の更...

REDOログが小さいと
• LCPの書き出しが終わる前にREDOログの領域
を使い切ってしまうと、LCPが完了するまでク
エリをブロックしてしまう

対応
• FragmentLogFileSizeを増やしてイニシャルロー
リングリスタート
• 別の対応としてはLCPの書き込み速度が7.3では
デフォルト10MB/sなのでこれを増やすのもあ
りだと思います

不定期にクエリが滞留
• これも原因が最初不明。発生が不定期だった
があるタイミングを境に収束
• 1台のデータノードのログにWARNINGのログ
が出力されていることを確認

こんなログ
[ndbd] WARNING -- Ndb kernel thread 2 is stuck in: Job Handling elapsed=100
[ndbd] WARNING -- Ndb kernel thread 3 ...

原因
• データノードのサーバはSAS HDD 4本の
RAID10で運用していたが、1台のHDDが中途
半端に壊れかけてRAIDコントローラーから切
り離されないせいで発生していた
• その結果書き込み待ちになり、書き込みが完
了するまでクエ...

対応
• RAIDコントローラーから見たHDDがFailedに
なって自然復旧。。。
• iostatのUtilとかから検知出来そう。また単純に
ログを監視しても良さそう。

その他
• MySQL Cluster 7.2からは
TimeBetweenEpochsTimeoutがデフォルト0になり
GCP stopが起きないようになっている
• 今回のケースだとTimeBetweenEpochsTimeoutを7.1...

まとめ
• 前回の発表から1年半ぐらい経過したけどこの
ぐらいなので(思ったより)安定してると思いま
す。

hiroi10