Zap-In Technology
速度ベンチマークテスト

概要

ベンチマーク-1 Hadoop/Spark と Zap-In との速度比較
ベンチマーク-2 BigQuery と Zap-In との速度比較
ベンチマーク-3 Zap-In 単独の速度測定 カテゴライズ処理

ベンチマーク-4 Zap-In 単独の速度測定 検索・ソート・集計・上書き更新

 

処理速度ベンチマーク-1

Hadoop/Spark と Zap-In Technology との速度比較

大規模データ高速処理エンジンとして有名な Hadoop/Spark との処理速度の比較をしました。

データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は 最大で181倍、合計タイムで25倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。

条件
 処理マシン

— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes

— Memory ————————————
MemTotal:      32726272 kB
MemFree:       28515008 kB
MemAvailable: 30948488 kB
Buffers:                   884 kB
Cached:            2568612 kB
SwapCached:               0 kB

— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)

データ

・A 営業マンマスター.csv        1,000件
・B 製品マスター.csv           100件
・C セールスログ.csv    6,070,000
・D エクスポート.csv         73,000件

処理課題

1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート

結果
 処理 Zap-In Hadoop/Spark 速度比
1. Aデータインポート 13 ms 2,352 ms x181
1. Bデータインポート 2 ms 150 ms x75
1. Cデータインポート 1,788 ms 24,424 ms x14
2. サーチ 19 ms 495 ms x26
3. ジョイン 658 ms 234 ms x0.4 (*)
4. 集計 125 ms 208 ms x1.7
5. Dデータエクスポート 1,586 ms 78,973 ms x50 (*)
合計タイム 4,192 ms 106,839 ms x25

(*) ジョイン処理は、Hadoop/Spark ではジョイン処理要求時には準備処理のみが行われ、実際の処理はデータエクスポート時に行われます。

 

処理速度ベンチマーク-2

BigQuery と Zap-In Technology との速度比較

クラウド上の大規模データ分析システムとして有名な BigQuery との処理速度の比較をしました。

データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は 最大で826倍、合計タイムで27倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。

条件
 処理マシン(BigQuery 側)

Google クラウド

 処理マシン(Zap-In 側)

— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes

— Memory ————————————
MemTotal:      32726272 kB
MemFree:       28515008 kB
MemAvailable: 30948488 kB
Buffers:                   884 kB
Cached:            2568612 kB
SwapCached:               0 kB

— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)

データ

・A 営業マンマスター.csv        1,000件
・B 製品マスター.csv           100件
・C セールスログ.csv    6,070,000
・D エクスポート.csv         73,000件

処理課題

1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート

結果
 処理 Zap-In BigQuery 速度比
1. Aデータインポート 13 ms 1,000 ms x77
1. Bデータインポート 2 ms 1,000 ms x500
1. Cデータインポート 1,788 ms 71,100 ms x40
2. サーチ 19 ms 15,700 ms x826
3. ジョイン 658 ms 10,200 ms x15
4. 集計 125 ms 3,000 ms x24
5. Dデータエクスポート 1,586 ms 12,000 ms x8
合計タイム 4,192 ms 114,000 ms x27

処理速度ベンチマーク-3

Zap-In Technology の単独の速度測定

Zap-In のカテゴライズ処理速度の測定をしました。

10億件のデータを10種類のカテゴリーに分類するのに
わずか 187 ms で完了しました。

条件
処理マシン

— CPU  ————————————-
AMD Phenom2 CPU x4  925(4core) @ 2.80GHz
cpu MHz : 1201.148
L1 : 2MB
L2 : 6MB

— Memory ————————————
MemTotal:      8 MB (1333MHz)

— OS ——————————————–
Windows 7 Ultimate 64bit

データ

データ件数        1億件
・各データの項目数 8項目

処理課題

・10種類のカテゴリーに分類

結果
処理時間

187 ms  (5.35億更新/秒)

 

処理速度ベンチマーク-4

Zap-In Technology の単独の速度測定

Zap-In の検索・ソート・集計・上書き更新の各処理速度の測定をしました。

例えば、1億件の文字列データをソートするのに、わずか 5,659 ms で完了しました。

条件
処理マシン

— CPU  ————————————-
Intel Xeon x2 (2core) @ 3.16GHz
L1 : 64kB
L2 : 1MB/1core

— Memory ————————————
MemTotal:      32 MB (1333MHz)

— OS ——————————————–
Windows Server 2008 Standard

データ

・データ件数        1億件
・各データの項目数 8項目

・項目1: 整数, 1億種類の値, シーケンシャル
・項目2: 整数, 1万種類の値, ランダム
・項目3: 整数, 100種類の値, ランダム
・項目4: 整数, 100種類の値, ランダム
・項目5: 文字列, 1億種類の値, ランダム
・項目6: 文字列, 100種類の値, ランダム
・項目7: 倍精度浮動小数, 1億種類の値, ランダム
・項目8: 10進固定小数(38桁), 1億種類の値, ランダム

処理課題

処理1. サーチ: 文字列(ユニークでランダム)をサーチ
処理2. ソート: 項目5(ユニークでランダムな文字列)をソート
処理3. 集計:  1次元(100種類の値)、1測度(ユニークでランダムな浮動小数)の集計
処理4. 上書き更新: 100万ヶ所を上書き更新

結果
処理時間
 処理 (データ1億件) Zap-In
1. サーチ   10件ヒット 0 ms
1. サーチ  1万件ヒット 0 ms
1. サーチ 100万件ヒット 7 ms
2. ソート 5,659 ms
3. 集計 9,312 ms
4. 上書き更新 100万件 10,784 ms

 

<Zap-In 技術資料へ>

  • Facebook
  • twitter
  • Hatena