Zap-In Technology
速度ベンチマークテスト
概要
・ベンチマーク-1 Hadoop/Spark と Zap-In との速度比較
・ベンチマーク-2 BigQuery と Zap-In との速度比較
・ベンチマーク-3 Zap-In 単独の速度測定 カテゴライズ処理
・ベンチマーク-4 Zap-In 単独の速度測定 検索・ソート・集計・上書き更新
処理速度ベンチマーク-1
Hadoop/Spark と Zap-In Technology との速度比較
大規模データ高速処理エンジンとして有名な Hadoop/Spark との処理速度の比較をしました。
データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は 最大で181倍、合計タイムで25倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。
条件
処理マシン
— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes
— Memory ————————————
MemTotal: 32726272 kB
MemFree: 28515008 kB
MemAvailable: 30948488 kB
Buffers: 884 kB
Cached: 2568612 kB
SwapCached: 0 kB
— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)
データ
・A 営業マンマスター.csv 1,000件
・B 製品マスター.csv 100件
・C セールスログ.csv 6,070,000件
・D エクスポート.csv 73,000件
処理課題
1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート
結果
| 処理 | Zap-In | Hadoop/Spark | 速度比 |
| 1. Aデータインポート | 13 ms | 2,352 ms | x181 |
| 1. Bデータインポート | 2 ms | 150 ms | x75 |
| 1. Cデータインポート | 1,788 ms | 24,424 ms | x14 |
| 2. サーチ | 19 ms | 495 ms | x26 |
| 3. ジョイン | 658 ms | 234 ms | x0.4 (*) |
| 4. 集計 | 125 ms | 208 ms | x1.7 |
| 5. Dデータエクスポート | 1,586 ms | 78,973 ms | x50 (*) |
| 合計タイム | 4,192 ms | 106,839 ms | x25 |
(*) ジョイン処理は、Hadoop/Spark ではジョイン処理要求時には準備処理のみが行われ、実際の処理はデータエクスポート時に行われます。
処理速度ベンチマーク-2
BigQuery と Zap-In Technology との速度比較
クラウド上の大規模データ分析システムとして有名な BigQuery との処理速度の比較をしました。
データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は 最大で826倍、合計タイムで27倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。
条件
処理マシン(BigQuery 側)
Google クラウド
処理マシン(Zap-In 側)
— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes
— Memory ————————————
MemTotal: 32726272 kB
MemFree: 28515008 kB
MemAvailable: 30948488 kB
Buffers: 884 kB
Cached: 2568612 kB
SwapCached: 0 kB
— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)
データ
・A 営業マンマスター.csv 1,000件
・B 製品マスター.csv 100件
・C セールスログ.csv 6,070,000件
・D エクスポート.csv 73,000件
処理課題
1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート
結果
| 処理 | Zap-In | BigQuery | 速度比 |
| 1. Aデータインポート | 13 ms | 1,000 ms | x77 |
| 1. Bデータインポート | 2 ms | 1,000 ms | x500 |
| 1. Cデータインポート | 1,788 ms | 71,100 ms | x40 |
| 2. サーチ | 19 ms | 15,700 ms | x826 |
| 3. ジョイン | 658 ms | 10,200 ms | x15 |
| 4. 集計 | 125 ms | 3,000 ms | x24 |
| 5. Dデータエクスポート | 1,586 ms | 12,000 ms | x8 |
| 合計タイム | 4,192 ms | 114,000 ms | x27 |
処理速度ベンチマーク-3
Zap-In Technology の単独の速度測定
Zap-In のカテゴライズ処理速度の測定をしました。
10億件のデータを10種類のカテゴリーに分類するのに
わずか 187 ms で完了しました。
条件
処理マシン
— CPU ————————————-
AMD Phenom2 CPU x4 925(4core) @ 2.80GHz
cpu MHz : 1201.148
L1 : 2MB
L2 : 6MB
— Memory ————————————
MemTotal: 8 MB (1333MHz)
— OS ——————————————–
Windows 7 Ultimate 64bit
データ
・データ件数 1億件
・各データの項目数 8項目
処理課題
・10種類のカテゴリーに分類
結果
処理時間
187 ms (5.35億更新/秒)
処理速度ベンチマーク-4
Zap-In Technology の単独の速度測定
Zap-In の検索・ソート・集計・上書き更新の各処理速度の測定をしました。
例えば、1億件の文字列データをソートするのに、わずか 5,659 ms で完了しました。
条件
処理マシン
— CPU ————————————-
Intel Xeon x2 (2core) @ 3.16GHz
L1 : 64kB
L2 : 1MB/1core
— Memory ————————————
MemTotal: 32 MB (1333MHz)
— OS ——————————————–
Windows Server 2008 Standard
データ
・データ件数 1億件
・各データの項目数 8項目
・項目1: 整数, 1億種類の値, シーケンシャル
・項目2: 整数, 1万種類の値, ランダム
・項目3: 整数, 100種類の値, ランダム
・項目4: 整数, 100種類の値, ランダム
・項目5: 文字列, 1億種類の値, ランダム
・項目6: 文字列, 100種類の値, ランダム
・項目7: 倍精度浮動小数, 1億種類の値, ランダム
・項目8: 10進固定小数(38桁), 1億種類の値, ランダム
処理課題
処理1. サーチ: 文字列(ユニークでランダム)をサーチ
処理2. ソート: 項目5(ユニークでランダムな文字列)をソート
処理3. 集計: 1次元(100種類の値)、1測度(ユニークでランダムな浮動小数)の集計
処理4. 上書き更新: 100万ヶ所を上書き更新
結果
処理時間
| 処理 (データ1億件) | Zap-In |
| 1. サーチ 10件ヒット | 0 ms |
| 1. サーチ 1万件ヒット | 0 ms |
| 1. サーチ 100万件ヒット | 7 ms |
| 2. ソート | 5,659 ms |
| 3. 集計 | 9,312 ms |
| 4. 上書き更新 100万件 | 10,784 ms |