バッチ高速化のあゆみ

バッチ高速化のあゆみ
株式会社ビズリーチ
阪本康裕

今日のお題
システム運営で必ずつきまとうバッチ処理
の長時間化。
今回はこの課題をを解決するまでに実施し
た数々の施策についての紹介
各施策については施策内容と発生し得るリ
スクと共に紹介。

目次
1章
「はじめに」
1. 今日のお題
2. 目次
3. 自己紹介
2章
「高速化のあゆみ」
1. 対象
2. 課題
3. 施策
a. ロジック
b. データソース
c. インフラ
3章
「奥の手」
1. マルチプロセス化
4章
「さいごに...

2章「高速化のあゆみ」

1. 対象（1/3)
環境／ミドルウェア
・Batchサーバ
言語：Java(Spring+Struts.Quartz scheduler)
アプリケーションコンテナ：Tomcat
データソース：RDS(AmazonWebService,MyS...

1. 対象 (2/3)
対象機能
スカウトメール配信
予め企業が設定しているスカウト条件にマッチする求職者に向けてメールを配信する機能。
自動で求職者に毎日朝・夕の２回、数求人を配信している。
大まかな処理としては
①マッチング処理
➜ 企業が...

1. 対象 (2/3)
マッチング処理
1. 求人のスカウト条件に一致する求職者を検索する
2. 一致したものに対してマッチ度を計算
3. 求人⇔求職者情報を格納

2. 課題(1/3) バッチ処理時間の長期化
求職者200,000名☓求人70,000件の条件一致検索を行うので、純粋に処理量が多い
多数☓多数をイメージできるような、掛け算のようなイメージがあれば
求職者
☓
200,000名
求人
☓
70...

2. 課題(2/3) 長時間化に伴う後続バッチの追いつき
バッチ処理時間長くなると、後続のメール配信処理の開始時間に間に合わなくなる。
スカウトバッチメール配信バッチ
（後続）

2. 課題(3/3) 運用上の問題
バッチ時間が始まると、その処理時間中はサーバを止めることができない。
これは新規機能リリースや、非定期のサーバ再起動が可能な機会を著しく低下させるため
運用面でも不利益が出始めていた。
帰りたい・・
まだ処理中

3. 施策 a.ロジック
①トランザクション回数の削減
効果：★★☆☆☆ リスク：★★☆☆☆

1求人に対する求職者のマッチ度情報は最大で全求職者数分のレコードが作成されることになるため、
RDSへのINSERT発行回数も最大で14,000,000,000通り分発生することになる。
Batch（アプリケーショ...

このオーバーヘッドは必ずしも１レコード登録する為に必要なものではなく、
複数レコードを一括で登録する際にも同じオーバーヘッドの時間で賄う事ができる。
つまり、③のステップで複数のレコードを登録することでオーバーヘッ...

リスク
トランザクションに登録をまとめる実装は比較的容易。
エラー時はトランザクション内の全てのレコード更新がロールバックされるため、
他レコードへの影響を考慮する必要がある。（全滅はOKか？一部更新はOKか？）
...

3. 施策 a.ロジック
②処理のマルチスレッド化
効果：★★★★☆ リスク：★★★★☆

バッチの処理時間の内訳を算出すると、Batchサーバの処理時間に比べて
RDSへの登録処理、Solrへの検索処理が圧倒的に多い。
その上、RDSやSolrの負荷も低いといった場合はBatch、RDS、Solrのスペック...

具体的には
①スカウト条件に一致する求職者を検索する
②一致したものに対してマッチ度を計算
③求人⇔求職者情報を格納
だった処理を
・処理対象となる求人のリストを抽出
・抽出した求人群をスレッド数分に分割する
・下記の...

before

after
この処理をスレッド化

after

マルチスレッド化に伴う子スレッドの管理。
バッチ処理本体を本スレッド、実処理を子スレッド（複数）として位置付けすると
本スレッドは全ての子スレッドの終了を監視する必要がある。
親スレッドは子スレッドの状況、特にエラーは...

3. 施策 a.データソース
①インデックスチューニング
効果：★★★★☆ リスク：★★★★☆

②インデックスのチューニング
RDS(MySQL)への検索時に使用するインデックスを見直し
検索しようとしている条件に
一致したインデックスが
用意されているか？
用意されていた場合、
実際に使われているのか？

検索しようとしている条件に一致したインデックスが用意されている
か？
テーブルレイアウト実データ

か？
IDX_1

か？
IDX_2

か？
IDX_1_2

か？
explain結果

インデックスの有無によりDBの検索対象レコード範囲が全景になるか否か挙動が異なる
➜ 大量のレコードがテーブルに存在するほど影響が大きくなる

定義インデックスが実装で発行するクエリに添っているか？
➜ 実装の改修などでDDL変更されたケースなどでインデックスも再設計されているか？

コード変更を伴わない為、アプリの挙動には影響しないのがこのチューニングの強み。
但し、インデックス登録時のALTER TABLE中は対象テーブルが共有ロック(読み取り専用)になる可能性
があるので注意。
特に外部制約でリンクしている子テーブルも...

3. 施策 a.データソース
②クエリ(insert文)チューニング
効果：★★★☆☆ リスク：★★☆☆☆

レコードの登録時に発行するSQLは
１レコード目：INSERT INTO ◯◯ VALUES (AA,AA,AA)
２レコード目：INSERT INTO ◯◯ VALUES (BB,BB,BB)
３レコー...

あまりに複数登録しすぎると発行SQLを文が大きくなりすぎてデバッグが困難になる
INSET INTO ◯◯ VALUES
(AA,AA,AA),(BB,BB,BB),(CC,CC,CC),(DD,DD,D...

3. 施策 a.インフラ
①RDSスケールアップ
効果：★★★★☆ リスク：★★★☆☆

①RDSのスケールアップ
AWSサービスの１つRDS。
こちらはインスタンスのサイズを１段階上げることにより純粋の処理スペックの向上
また、インスタンスサイズに連動してネットワーク性能も向上するので通信上の高速化も
さらにストレージをマグネチッ...

①RDSのスケールアップ
AWSの使用料金が増加
スケールアップ時にはRDSの再起動が必要。全システムがRDSに依存しているため
全てのサービスを停止する必要がある
リスク

3. 施策 a.インフラ
②Solrのクラスタリング
効果：★★★★☆ リスク：★★★☆☆

Solrの台数（EC2インスタンス)を増やすことで、必要な処理を分散して全体の許容量を上げる
クラスタリングにはAWSのロードバランサーにて2台のSolrへとアクセス分散を実現

EC2インスタンスが1台（Solr分）と、EBSの料金が運用コストとして増加する
データ同期が必須。
リスク

それでも間に合わない・・・
・どれだけ高速化の策を打っても１バッチの処理時間を短縮するには限界がある
➜ インスタンスの性能を上げても、費用に見合う成果は出ない

4. 奥の手
マルチプロセス化
効果：★★★★★ リスク：★★★★☆

②マルチプロセス化
残された課題
➜ １つのバッチ処理時間が長くなりすぎて、将来的に頭打ちになる
処理方式の転換
➜ 複数バッチサーバ処理へと変更し、処理ペースを掛け算で確保できるようにする

新しい処理方式
①処理内容の細分化
➜ 現在の処理を分割可能な単位で細分化する

②細部化された処理を実装
➜ より細かい単位で処理を行う実装へと変更し、複数のサーバ実行に対応する
単位で処理を行う実装

③細部化された情報をキューイング
➜ 複数サーバが分割された処理対象を順次要求し、処理を行う
キューについてはAWSのSQS(Simple Queue Service)を採用

SQSとは？
Amazon Web Serviceが提供するキューイングシステム
安価で大量のメッセージの送信／配信をサポートし、SDKも公式で提供している
注意点
・メッセージ配信時に同じものが取れる場合が...

処理サーバ１処理サーバ２

SQSの特性「メッセージ配信時に同じものが取れる場合がある」への対応
同一メッセージが何回も取れる場合、同じ処理を複数実行する可能性がある。
防止策としてRDS(MySQL)にて処理済みメッセージの管理テーブルを用意し
メッ...

結果
ここまでの施策によって・・

結果
処理サーバ２台構成により実行速度が300%UP

バッチ高速化のあゆみ

dcubeio

バッチ高速化のあゆみ