カスタム検索
表示順:
Relevance
Relevance
Date
ウェブ
 
 
 

終わりなく増えていくストリームデータ特化の分散ストレージ「Pravega」、EMCがオープンソースで公開。これまでのストレージとどう違う?[PR]

2018年2月26日


ファイルへの保存やデータベースへの格納といった、これまで親しまれてきた方法では扱いにくい、新しい形式のデータが存在感を高めつつあります。

それは継続的に大量のデータが流れ込んでくる「ストリームデータ」です。

例えば、システム内のさまざまなアプリケーションやサーバが生成するログ、ソーシャルメディアから流れてくる利用者の声や自社製品の評判、あるいはIoTを活用したシステムでは、工場内やオフィス、工作機械や自動車などの機器に組み込まれた多数のセンサーから大量に送られてくるリアルタイムデータなどがそれにあたります。

Pravega:終わりがなく増えていくストリームデータのためのストレージ

ストリームデータの特徴として、その内容が温度や位置情報、画像、動画、文字列など多様で、データの断片ごとに時刻や順番を持つこと。さらにストリームデータの量は動的に変化し、明確な終わりがないため容量が際限なく増えていくこと、などが挙げられます。

こうしたストリームデータを扱うシステムは、例えばKafkaでリアルタイムにデータを収集し、それをCassandraやSparkなどで分析する、といった複数のミドルウェアを組み合わせた構成が一般的でしょう。この場合、ミドルウェアごとにそれぞれストレージを持つ個別のシステムで運用されることになります。システム管理は複雑になり、システム間でのデータ複製などによる手間もかかるものになるでしょう。

ストリームデータのためのストレージPravega

こうしたストリームデータにおける課題を解決するためにDell EMCがオープンソースとして公開した「Pravega」(プラベガ)は、ストリームデータの処理に最適化された単一の抽象化されたスケーラブルな分散ストレージを実現するソフトウェアです。

Pravegaはストリームデータを高信頼かつスケーラブルに保存するストレージを実現すると同時に、保存したデータをほかのシステムに複製せず、そのままPravegaのうえで分析、加工することを可能にします。

Pravega.io

高速なストレームデータ処理と大規模なアーカイブをティアリングで実現

Pravegaは、ストリームデータを短期間保存するTier-1ストレージとしてリアルタイム処理に最適化された高可用分散ストレージのApache BookkeeperをPravegaクラスタ内に実装し、長期間の保存のためのTier-2ストレージとして、Pravegaクラスタの外部に配置された大容量向け分散ファイルシステムのApache HDFS、Dell EMC IsilonまたはElastic Cloud Storage (ECS)を用いることができます。

この2つの階層化ストレージの上に、ストリームデータAPI(Segment Store)、コントローラ(Controller)、分散処理基盤(Zookeeper)などを加えものが、Pravegaの基本的な構造となります。

Pravegaのアーキテクチャ

Pravegaがストリームデータを受け取ると、まずは受け取ったサーバのローカルキャッシュにデータが書き込まれ、すぐにTier-1ストレージ(Bookkeeper)によってPravegaクラスタ内の3つのサーバに冗長化されて保存されます。この処理は10ミリ秒以内に行われ、これによって高速な書き込みと高可用性が保証されます。

やがてBookkeeper上でデータがある程度の大きさになると、自動的にTier-2ストレージ(HDFS/Isilon/ECS)へデータがまとめて移されます。Tier-2ストレージへの保存が完了すると、Bookkeeper上に保存されていた3つのデータは削除され、新たな読み出しはTier-2ストレージから、またはBookkeeper上にプリフェッチ(先読み)されてキャッシュから行われます。

この2つの階層化ストレージを抽象化することで、Pravegaはリアルタイムにストリームデータを保存しつつスケーラブルで高可用かつ大容量なストレージを実現しているのです。

そして保存されたデータは読み出し用のストリームデータAPI経由で、いつでも正確に読みだしてリアルタイムとバッチのいずれの手段でも柔軟に分析、加工できます。

一度だけ確実に実行することを保証する「Exactly Once」対応

Pravegaの優れた点は、ストリームデータを分析や加工のためにわざわざ別のシステムへデータをコピーする必要がなく、従来の複雑なリアルタイムデータ処理システムに対してシンプルで高速、スケーラブルなシステムを実現できる点にあります。

さらにPravegaでは、ストリームデータに対して「Exactly Once」の特性を備えています。つまり、送信されてきたデータを失うことなく確実に捕らえ、重複することなく処理し保存する高い信頼性がある、というものです。

Pravegaの利点

PravegaはIoTなどストリームデータが主役となる新しいITシステムにおけるストレージ基盤となる新しい世代のストレージ仮想化ソフトウェアだといえます。

そしてDell EMCはこのPravegaとリアルタイム分析エンジンのApache Flinkなどをハイパーコンバージドシステムに搭載し、ストリームデータ処理のための統合アプライアンス「Project Nautilus」も発表しています。それについては、また別の記事で紹介することにしましょう。

Pravega - Stream as a New Distributed Storage Primitive


(本記事はDell EMC提供のタイアップ記事です)

follow us in feedly

カテゴリ サーバ / ストレージ / ネットワーク
タグ  Dell EMC , PR


前の記事
JITコンパイラを初搭載した「Ruby 2.6.0-preview1」リリース。大幅な実行速度向上を目指し


カテゴリ



Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

人気記事ランキング

  1. 技術選定の審美眼。時代を超えて生き続ける技術と、破壊的な変化をもたらす技術を見極める(前編)。デブサミ2018
  2. AWSのシステム構成情報を集めて構成図を自動生成してくれる「CloudMapper」、オープンソースで公開
  3. Ruby誕生25周年を祝うイベント「Ruby25」開催。まつもと氏にサプライズでお嬢様ふたりから花束贈呈
  4. 技術選定の審美眼。時代を超えて生き続ける技術と、破壊的な変化をもたらす技術を見極める(後編)。デブサミ2018
  5. サーバレスのオープンソース実装「OpenFaaS」の作者、VMwareが雇用しフルタイムで開発へ
  6. GitHubが示した2018年のオープンソースのトレンド。Angularのようなクロスプラットフォーム対応ツール、機械学習などに加え、学習や就職支援ツールも盛り上がると
  7. Amazon S3クライアント機能を搭載した、オープンソースのWindows対応FTPクライアント「WinSCP 5.13」リリース。FTPサーバのようにAmazon S3を操作
  8. 来月にはJava 10が登場し、9月にはJava 11が登場予定。新しいリリースモデルを採用した今後のJava、入手方法やサポート期間はこう変わる(OpenJDKに関する追記あり)
  9. Rustが、コードのスタイルガイド「Rust Style Guide」と自動整形ツールを導入する理由。コードをめぐる議論を省き、メンタルの負担を減らし、プログラマを参加しやすくする
  10. AWS東京リージョンが「インターリージョンVPCピアリング」に対応。世界中のVPCとAWSのバックボーンで接続可能に


新着記事 10本


PR - Books


fig

fig

fig