Zap-In Technology
速度ベンチマークテスト
概要
・ベンチマーク-1 Hadoop/Spark と Zap-In との速度比較
・ベンチマーク-2 BigQuery と Zap-In との速度比較
・ベンチマーク-3 Zap-In 単独の速度測定 カテゴライズ処理
・ベンチマーク-4 Zap-In 単独の速度測定 検索・ソート・集計・上書き更新
処理速度ベンチマーク-1
Hadoop/Spark と Zap-In Technology との速度比較
大規模データ高速処理エンジンとして有名な Hadoop/Spark との処理速度の比較をしました。
データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は 最大で181倍、合計タイムで25倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。
条件
処理マシン
— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes
— Memory ————————————
MemTotal: 32726272 kB
MemFree: 28515008 kB
MemAvailable: 30948488 kB
Buffers: 884 kB
Cached: 2568612 kB
SwapCached: 0 kB
— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)
データ
・A 営業マンマスター.csv 1,000件
・B 製品マスター.csv 100件
・C セールスログ.csv 6,070,000件
・D エクスポート.csv 73,000件
処理課題
1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート
結果
処理 | Zap-In | Hadoop/Spark | 速度比 |
1. Aデータインポート | 13 ms | 2,352 ms | x181 |
1. Bデータインポート | 2 ms | 150 ms | x75 |
1. Cデータインポート | 1,788 ms | 24,424 ms | x14 |
2. サーチ | 19 ms | 495 ms | x26 |
3. ジョイン | 658 ms | 234 ms | x0.4 (*) |
4. 集計 | 125 ms | 208 ms | x1.7 |
5. Dデータエクスポート | 1,586 ms | 78,973 ms | x50 (*) |
合計タイム | 4,192 ms | 106,839 ms | x25 |
(*) ジョイン処理は、Hadoop/Spark ではジョイン処理要求時には準備処理のみが行われ、実際の処理はデータエクスポート時に行われます。
処理速度ベンチマーク-2
BigQuery と Zap-In Technology との速度比較
クラウド上の大規模データ分析システムとして有名な BigQuery との処理速度の比較をしました。
データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は 最大で826倍、合計タイムで27倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。
条件
処理マシン(BigQuery 側)
Google クラウド
処理マシン(Zap-In 側)
— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes
— Memory ————————————
MemTotal: 32726272 kB
MemFree: 28515008 kB
MemAvailable: 30948488 kB
Buffers: 884 kB
Cached: 2568612 kB
SwapCached: 0 kB
— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)
データ
・A 営業マンマスター.csv 1,000件
・B 製品マスター.csv 100件
・C セールスログ.csv 6,070,000件
・D エクスポート.csv 73,000件
処理課題
1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート
結果
処理 | Zap-In | BigQuery | 速度比 |
1. Aデータインポート | 13 ms | 1,000 ms | x77 |
1. Bデータインポート | 2 ms | 1,000 ms | x500 |
1. Cデータインポート | 1,788 ms | 71,100 ms | x40 |
2. サーチ | 19 ms | 15,700 ms | x826 |
3. ジョイン | 658 ms | 10,200 ms | x15 |
4. 集計 | 125 ms | 3,000 ms | x24 |
5. Dデータエクスポート | 1,586 ms | 12,000 ms | x8 |
合計タイム | 4,192 ms | 114,000 ms | x27 |
処理速度ベンチマーク-3
Zap-In Technology の単独の速度測定
Zap-In のカテゴライズ処理速度の測定をしました。
10億件のデータを10種類のカテゴリーに分類するのに
わずか 187 ms で完了しました。
条件
処理マシン
— CPU ————————————-
AMD Phenom2 CPU x4 925(4core) @ 2.80GHz
cpu MHz : 1201.148
L1 : 2MB
L2 : 6MB
— Memory ————————————
MemTotal: 8 MB (1333MHz)
— OS ——————————————–
Windows 7 Ultimate 64bit
データ
・データ件数 1億件
・各データの項目数 8項目
処理課題
・10種類のカテゴリーに分類
結果
処理時間
187 ms (5.35億更新/秒)
処理速度ベンチマーク-4
Zap-In Technology の単独の速度測定
Zap-In の検索・ソート・集計・上書き更新の各処理速度の測定をしました。
例えば、1億件の文字列データをソートするのに、わずか 5,659 ms で完了しました。
条件
処理マシン
— CPU ————————————-
Intel Xeon x2 (2core) @ 3.16GHz
L1 : 64kB
L2 : 1MB/1core
— Memory ————————————
MemTotal: 32 MB (1333MHz)
— OS ——————————————–
Windows Server 2008 Standard
データ
・データ件数 1億件
・各データの項目数 8項目
・項目1: 整数, 1億種類の値, シーケンシャル
・項目2: 整数, 1万種類の値, ランダム
・項目3: 整数, 100種類の値, ランダム
・項目4: 整数, 100種類の値, ランダム
・項目5: 文字列, 1億種類の値, ランダム
・項目6: 文字列, 100種類の値, ランダム
・項目7: 倍精度浮動小数, 1億種類の値, ランダム
・項目8: 10進固定小数(38桁), 1億種類の値, ランダム
処理課題
処理1. サーチ: 文字列(ユニークでランダム)をサーチ
処理2. ソート: 項目5(ユニークでランダムな文字列)をソート
処理3. 集計: 1次元(100種類の値)、1測度(ユニークでランダムな浮動小数)の集計
処理4. 上書き更新: 100万ヶ所を上書き更新
結果
処理時間
処理 (データ1億件) | Zap-In |
1. サーチ 10件ヒット | 0 ms |
1. サーチ 1万件ヒット | 0 ms |
1. サーチ 100万件ヒット | 7 ms |
2. ソート | 5,659 ms |
3. 集計 | 9,312 ms |
4. 上書き更新 100万件 | 10,784 ms |