はじめるCassandra

いわながかける twitter@kakerukaeru
ゆとりインフラ園児にあ @CyberAgent
Amebaの認証、課金、画像配信基盤の面倒見るマン
Cassandra歴：１年弱... 緊張してます
オエーー!!!! ＿＿_
＿＿...

ということで
今回のお話の内容としては
以下の事を重点的にお話しようかと思います
• 運用していく上で、見るべき点
• 定常的に行うべきオペレーション
• 初めてCassandraを運用してみての所感

agenda
• about CyberAgent&Service
• why Cassandra
• Operation
• Build,Monitoring,Backup etc...
• about Troubleshooting
• ま...

about Cassandra in CyberAgent
• Cassandra Version：1.1.5, 1.2.13
• Production Cluster：3
• Production nodes： about 150node
•...

use at
Cyberagent
Smartphone Platform1
1
ブラウザのPlatformな

既存ではなく
新しく作ったClusterのお話

For Native App
iOS & Android
auth
payment
logging

For Native App
• ネィティブアプリ用基盤
• 生まれて１年弱の基盤
• 認証、課金、loggingのapiを提供
• Cassandraの使用は主にid管理の部分
• idに紐付けて、課金＆loggingなどのbackendのS...

why Cassandra
• 担当になったら既にあった
• SPOFがない
• 急激なデータ増に耐えられるscalability
• ノード追加による、スケールアウト
• 弊社Smartphone Platformでの運用実績

Cassandra setting
• Version：2.0.8
• Replication Factor：3
• Consistency Level：QUORUM
• use vnode：256
• use CQL,nodejs用独自ドライ...

Request
• Peak Request
• Read：about 9,000 qps
• Write：about 3,000 qps
• Data size
• Total：600GB
• 1node avg：50GB

Latency
• Read：avg 2ms
• Write：avg 0.1ms

HW Spec
• private Cloud Instance
• CPU：24core
• Memory：94GB、heap 8GB
• Disk；1TB
• 12node
• 1 Cluster

HW Spec
• 相当に贅沢なサーバ
• 基盤としてもこれからデカくなることを見越してのサーバ
• Resource的にはまだまだ余裕がある
• node減らしても大丈夫そ
• privateCloudのInstance typeのラインナッ...

Build
• Cassandraサーバの構築
• Jenkins & ansible
• 手作業はCluster join時のCassandra
プロセスの起動のみ
• vnode(Cassandra ver1.2~)を使用
しているため、手...

Monitoring
• threshold
• use sensu
• how to check
• Community&Original sensu
plugin
• how to notify
• mail & hipchat

Monitoring
• trend
• use OpsCenter
• data size&latency
• use sensu & inﬂuxdb & grafana
• how to check
• Community&Original...

Monitoring
• check
• OS Resource
• cpu,memory,disk&nw
latency,fd
• JVM
• heap,gc

Monitoring
• check
• Cassandra
• read&write_qps,latency
• thread pool
• ReadStage
• FlushWriter
• Compaction
• HintedHando...

Monitoring
どうやってCassandraの動向を追うの？＿？
• CassandraStatusread&writeの動向を追う
• Write&ReadStage、MutationStage、FlushWrite
• Compact...

Operation
• repair & cleanup
• about 20h / weekly
• backup & restore
• snapshot & sstableloader
• restore CI
• ?? h / week...

Operation
• repair & cleanup
• レプリカの不整合を防ぐために定期的なrepairを実行
• データの復活を防ぐために同時にcleanupも実行
• 実行周期は 7days ＜ gc grace seconds(de...

Operation
• backup
• 2h毎に各nodeでsnapshotを作成しSwiftに保存。
• restore
• test-clusterにて定期的にrestoreが出来ているか確認
• sstableloaderを使い空Clu...

何かあった時によく使うnodetool
• nodetool status
• nodeの状態をささっと見たい
• nodetool tpstats
• 実行中のthreadの監視
• nodetool netstats
• streamの情報...

• nodetool cfstats
• cf毎に情報を見たい4
• nodetool disablegossip,disablethrift,disablebinary,ﬂush
• disable* ...

なので予定していたnodeの再起動などは下記を使ったりする
$ nodetool disablegossip &&
nodetool disablethrift &&
nodetool disable...

しかし実際には
突発的にnodeに何か問題が発生した場合、
nodetoolの結果が返ってこない事がほとんど
その場合はどうするか

諦めて再起動5
/etc/init.d/cassandra restart
5
用法用量を守って正しくお使いください。ちゃんとlog、metricsをみて判断してますよ、、、

NW障害6
6
もう既に怖いですね

おきたこと、対応したこと
• 瞬断が続きL2レベルでの完全なる断になる
• Cluster的には全nodeが独立した状態に。
• max hint window ms (default:3h)を超えた(!!)のでhint7
の情報
は全て破棄さ...

ふりかえると
• データロストは無し
• 瞬断が続く形でもhintを保持してる限り自動的にレプリカの
整合性を整えることが可能
• hintがなくてもnodeさえ潰れなければClusterの復旧が可能8
• NW断にも耐えられた
8
hintも...

その他先人の知見9
• slow queryを見ることが出来ないので、困る前にアプリ側に
slow logを実装する
• スキーマ設計大事問題
• wide rowを避ける。事前分割出来るならちゃんとしよう
• Cassandraに限った話でな...

まとめ
• 最低限の事を抑えておけば運用は楽
• Cassandra、ｺﾜｸﾅｲﾖ
• 先人の知見をありがたくいただこう
• そして自分たちも蓄積して共有しよう。
• Cassandra Communityに貢献的なね
• 1.xx系とはお別れ...

これからのこと
• これからのCluster設計
• そのまま仮想？物理？＿？
• PITRに近しいこと、したい、、、
• データセンター機能を使って、Backup専用のCluster作成
• Backup時だけ、データセンター間のレプリを止め...

ご清聴ありがとうございました
なにかあれば懇親会の時に是非！（＾ω＾）

Kakeru Iwanaga