Kafkaを使ったマイクロサービス基盤 part2 ＋運用して起きたトラブル集

Kafkaを使った
マイクロサービス基盤 part2
＋運用して起きたトラブル集
@matsu_chara 2016/5/31
Apache Kafka Meetup Japan #1 at Yahoo! JAPAN

今日のスライド
http://www.slideshare.net/matsu_chara/kafka-part2

part1のスライド
http://xuwei-k.github.io/slides/kafka-matsuri/#1

自己紹介
• @matsu_chara
• Ponylang非公式エバンジェリスト活動
• Scala新卒研修用テキスト

話すこと
• Kafkaを使ったイベントハブについて
• イベントハブとしてのKafka
• 現在のシステム構成
• Kafkaの設定
• Kafka運用時辛かった事例
• TopicとPartition数増大による性能劣化
• FullGC発...

• 利用用途の違いでKafkaのチューニングは
どう変わるのか
• 運用・性能面で困ったことを共有
話すこと

Kafkaを使ったEventHubについて

よくあるKafkaの使われ方
• ユーザーアクティビティログ・メトリクスの集約
=> availability重視
• イベントハブ(受け取ったデータをロストしないこと
が最重要)
=> durabilityを重視

イベントハブとしてのKafka
• 社内システム連携・メッセージングのための基盤

サービス
ニコ動/ニコ生とか
Publisher
別システム
別サービスなど
Subscriber

• Publisherが直接1:Nで配信するのは大変
• 様々な温かみが生まれた歴史…
• 各種サービスから情報を集約したいチームが出てきた
時に対応するコスト
• 性能を各サービスでスケールさせるコスト

サービス
ニコ動/ニコ生など
Publisher
他サービス
メール通知など
Subscriber

• Kafkaを中心にしてデータを集約
• Kafkaのスケーラビリティにより、色々なサービスが情報
をsubscribe可能になる
• publisherのシステム的な都合にsubscriberが影響さ
れない...

現在のシステム
• Scala/Play/akka
• 運用開始から半年ちょっと
• Kafka 0.9(クラスタは一つ。まだあまり大きくない)

現在のシステム
• HTTPでイベントを受け取りKafkaへpublish
• KafkaからsubscribeしHTTP/AMQPで通知
HTTP
AMQP
HTTP

Protocol Buffers on Kafka
• イベントのシリアライザは
• 社内システム間連携の基盤として、メッセージの
互換性を保障・調整する役割も担いたい
• 互換性維持のやりやすさを考慮して採用
• grpcも併せて社内のデータ...

Kafkaの設定
• データを失わないことを重視
• Netflixの事例と方向性が異なる
項目名 default値 Netflix 設定値
acks 1 1 all
replication.factor - 2 3
min.insync.re...

Kafkaの設定
その他の設定はpart1で紹介。
もっとチューニングしたいけど機能追加の兼ね合いがあるので隙を見てやっ
ていきたい
もっと詳細な情報
http://xuwei-k.github.io/slides/
kafka-matsuri...

TopicAndPartition増大による
性能劣化
• partitionが増えるとPublish完了までの時間が悪化
• replication factorにも依存
• レプリケーションが主な原因のようなので
num.replica.f...

性能劣化
topicをたくさん作り、1topicにのみ100万件publishしたときのqps
• グラフはHDDで計測したもの。SSDでも傾向自体は変化なし。
0 2000 4000 6000 8...

性能劣化
• 現在はイベント頻度が高すぎないものに関しては
partition数を1にして対処（必要に応じて増やす）
• partition数の目安は1brokerあたり 
（100 * broke...

性能劣化
• Netflixも抑えているが、そちらは可用性に関するチューニング？
• 故障時のオーバーヘッドを減らす
企業目安参考元
confluent
2000~4000 partitions...

FullGC発生によるPublish失敗
• 負荷試験中に発生。
• メッセージサイズによる。（Kafka的には1KB程度が最も
性能がでてGCにも優しいらしい）
• Javaパフォーマンスに書いてあるようなことをひたすら
やっていく。
clo...

RAIDコントローラエラー発生事件
• 突然Kafkaへのpublishがタイムアウトし始める
• ログを見るとRAIDコントローラが再起動していた
• RAIDコントローラ再起動後のbrokerは正常に動作
• 最近の出来事で調査・対策の方針...

Event

RAIDコントローラに
異常発生

想定
RAIDコントローラに
異常発生

in-sync replicaから離脱
想定

残った2台でack
想定

in-sync replicaのまま
現実

in-sync replicaのまま
現実
acks=allを待って 
タイムアウト

現実
しばらく経った後
RAIDコントローラ
再起動

現実
3台でack
しばらく経った後
RAIDコントローラ
再起動

• min.insync.replica=2なので1台落ちてもpublish
できるという想定だった。
• しかし「brokerがackを返せない状態」で「クラスタ
から離脱しなかった」ため、「acks=al...

• acks=2はkafka 0.9からは出来なくなっている
• RAIDを使わない方針も考えられる？
• RAID以外のエラーでも同じような現象は起きうる
のか？
• 自動で離脱しないなら、brokerを停...

• Netflixのようにcold standbyなクラスタを用意
するのはどうなのか、調子の悪いbrokerを停止さ
せるだけでは不十分？
• 再現できていないので仮説ベースな部分あり
• 意見募集

まとめ
• 事例紹介
• 用途の違いを意識したチューニングが必要になる
• Netflixのようなavailabilityを重視
• イベントバスとしてdurabilityを重視
• 運用トラブルが起きる前に、confluent/linkedi...

Kafkaを使った マイクロサービス基盤 part2 ＋運用して起きたトラブル集