Zap-In Benchmark

Zap-In Technology
速度ベンチマークテスト

概要

・ベンチマーク－1　Hadoop/Spark と Zap-In との速度比較
・ベンチマーク－2　BigQuery と Zap-In との速度比較
・ベンチマーク－3　Zap-In 単独の速度測定　カテゴライズ処理
・ベンチマーク－4　Zap-In 単独の速度測定　検索・ソート・集計・上書き更新

処理速度ベンチマーク－1

Hadoop/Spark と Zap-In Technology との速度比較

大規模データ高速処理エンジンとして有名な Hadoop/Spark との処理速度の比較をしました。

データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は最大で181倍、合計タイムで25倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。

条件

処理マシン

— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes

— Memory ————————————
MemTotal: 32726272 kB
MemFree: 28515008 kB
MemAvailable: 30948488 kB
Buffers: 884 kB
Cached: 2568612 kB
SwapCached: 0 kB

— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)

データ

・A 営業マンマスター.csv　　 1,000件
・B 製品マスター.csv　　　　　 100件
・C セールスログ.csv　　　　6,070,000件
・D エクスポート.csv　　　　 73,000件

処理課題

1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート

結果

処理	Zap-In	Hadoop/Spark	速度比
1. Aデータインポート	13 ms	2,352 ms	x181
1. Bデータインポート	2 ms	150 ms	x75
1. Cデータインポート	1,788 ms	24,424 ms	x14
2. サーチ	19 ms	495 ms	x26
3. ジョイン	658 ms	234 ms	x0.4 (*)
4. 集計	125 ms	208 ms	x1.7
5. Dデータエクスポート	1,586 ms	78,973 ms	x50 (*)
合計タイム	4,192 ms	106,839 ms	x25

(*) ジョイン処理は、Hadoop/Spark ではジョイン処理要求時には準備処理のみが行われ、実際の処理はデータエクスポート時に行われます。

処理速度ベンチマーク－2

BigQuery と Zap-In Technology との速度比較

クラウド上の大規模データ分析システムとして有名な BigQuery との処理速度の比較をしました。

データ読み込み・検索・ジョイン・集計・データ書き出しの各処理において、Zap-In は最大で826倍、合計タイムで27倍の速度を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。

条件

処理マシン（BigQuery 側)

Google クラウド

処理マシン（Zap-In 側)

— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes

— Memory ————————————
MemTotal: 32726272 kB
MemFree: 28515008 kB
MemAvailable: 30948488 kB
Buffers: 884 kB
Cached: 2568612 kB
SwapCached: 0 kB

— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)

データ

・A 営業マンマスター.csv　　 1,000件
・B 製品マスター.csv　　　　　 100件
・C セールスログ.csv　　　　6,070,000件
・D エクスポート.csv　　　　 73,000件

処理課題

1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート

結果

処理	Zap-In	BigQuery	速度比
1. Aデータインポート	13 ms	1,000 ms	x77
1. Bデータインポート	2 ms	1,000 ms	x500
1. Cデータインポート	1,788 ms	71,100 ms	x40
2. サーチ	19 ms	15,700 ms	x826
3. ジョイン	658 ms	10,200 ms	x15
4. 集計	125 ms	3,000 ms	x24
5. Dデータエクスポート	1,586 ms	12,000 ms	x8
合計タイム	4,192 ms	114,000 ms	x27

処理速度ベンチマーク－3

Zap-In Technology の単独の速度測定

Zap-In のカテゴライズ処理速度の測定をしました。

10億件のデータを１０種類のカテゴリーに分類するのに
わずか 187 ms で完了しました。

条件

処理マシン

— CPU ————————————-
AMD Phenom2 CPU x4 925(4core) @ 2.80GHz
cpu MHz : 1201.148
L1 : 2MB
L2 : 6MB

— Memory ————————————
MemTotal: 8 MB (1333MHz)

— OS ——————————————–
Windows 7 Ultimate 64bit

データ

・データ件数　　１億件
・各データの項目数　８項目

処理課題

・１０種類のカテゴリーに分類

結果

処理時間

187 ms　　（５.３５億更新/秒）

処理速度ベンチマーク－4

Zap-In Technology の単独の速度測定

Zap-In の検索・ソート・集計・上書き更新の各処理速度の測定をしました。

例えば、１億件の文字列データをソートするのに、わずか 5,659 ms で完了しました。

条件

処理マシン

— CPU ————————————-
Intel Xeon x2 (2core) @ 3.16GHz
L1 : 64kB
L2 : 1MB/1core

— Memory ————————————
MemTotal: 32 MB (1333MHz)

— OS ——————————————–
Windows Server 2008 Standard

データ

・データ件数　　１億件
・各データの項目数　８項目

・項目１：　整数, １億種類の値, シーケンシャル
・項目２：　整数, １万種類の値, ランダム
・項目３：　整数, 100種類の値, ランダム
・項目４：　整数, 100種類の値, ランダム
・項目５：　文字列, １億種類の値, ランダム
・項目６：　文字列, 100種類の値, ランダム
・項目７：　倍精度浮動小数, １億種類の値, ランダム
・項目８：　１０進固定小数(３８桁), １億種類の値, ランダム

処理課題

処理1. サーチ：　文字列（ユニークでランダム）をサーチ
処理2. ソート：　項目５（ユニークでランダムな文字列）をソート
処理3. 集計：　　１次元（100種類の値）、１測度（ユニークでランダムな浮動小数）の集計
処理4. 上書き更新：　１００万ヶ所を上書き更新

結果

処理時間

処理 (データ１億件)	Zap-In
1. サーチ　　10件ヒット	0 ms
1. サーチ　1万件ヒット	0 ms
1. サーチ 100万件ヒット	7 ms
2. ソート	5,659 ms
3. 集計	9,312 ms
4. 上書き更新 100万件	10,784 ms

<Zap-In 技術資料へ>

Zap-In Benchmark

Zap-In Technology 速度ベンチマークテスト

概要

処理速度ベンチマーク－1

Hadoop/Spark と Zap-In Technology との速度比較

大規模データ高速処理エンジンとして有名な Hadoop/Spark との処理速度の比較をしました。

条件

処理マシン

データ

処理課題

結果

処理速度ベンチマーク－2

BigQuery と Zap-In Technology との速度比較

クラウド上の大規模データ分析システムとして有名な BigQuery との処理速度の比較をしました。

条件

処理マシン（BigQuery 側)

処理マシン（Zap-In 側)

データ

処理課題

結果

処理速度ベンチマーク－3

Zap-In Technology の単独の速度測定

Zap-In のカテゴライズ処理速度の測定をしました。

条件

処理マシン

データ

処理課題

結果

処理時間

処理速度ベンチマーク－4

Zap-In Technology の単独の速度測定

Zap-In の検索・ソート・集計・上書き更新の各処理速度の測定をしました。

条件

処理マシン

データ

処理課題

結果

処理時間

Zap-In Technology
速度ベンチマークテスト