ストーンブレイカー氏が新たに立ち上げた「Tamr」は、ばらばらに存在する企業内外のデータを機械学習で自動的に整理統合

2014年5月21日

データベースの大御所として知られるマイケル・ストーンブレイカー氏。IngresやPostgresといったリレーショナルデータベースの先駆けとなる製品を開発、InformixのCTOを務め、またカラム型データベースのVerticaを創業、最近ではVoltDBを創業するなど、データベースの先端技術を商用化し続けてきました。

そのストーンブレイカー氏が共同創業者として立ち上げた企業が「Tamr」(テイマーと発音するようです)です。同社は5月19日、Google Venturesなどから1600万ドル(約1億6000万円)の投資を受けるのと同時に、同社製品(社名と同じTamr)を発表しました。

高度なデータウェアハウスをほぼ自動的に作ってくれる

Tamrとは、これまでストーンブレイカー氏が関わってきたようなリレーショナルデータベースやNoSQLデータベースとはまた違う分野の製品となっています。プレスリリースでは、次のように説明されています。

Tamr’s scalable platform for data curation lets businesses connect and enrich all their data, including internal data sources and external public data sources, as well as feeds from the Internet of Things.

Tamrのデータキュレーション向けスケーラブルプラットフォームは、データをビジネスにつなげ、より活用できるようにします。そこには社内のデータソースや社外の公開されているデータソース、そしてInternet of Thingも含まれます。

仕組みを図にしたものをTamrのWebサイトから引用しましょう。社内あるExcelシートなども含むさまざまなデータ、データベースをTamrは関連付け、整理、統合し、分析しやすくしてくれる、というもの。それを実現するために機会学習などのアルゴリズムを用い、さらに不明な点は人間にシンプルな質問として投げかけてくれます。

fig

機会学習によってTamrは使うほどに賢くなってくれるとのこと。つまり、データ分析に活用できる高度なデータウェアハウスを半自動で作ってくれるソフトウェアといえそうです。

Tamrは「野生動物の調教師」を意味する英単語「Tamer」のeを省略したものに相当します。あちこちに点在し、しかも膨れ上がっていくデータを手なずけるためのソフトウェアという意味に重ねているのではないでしょうか。

データキュレーションの自動化へ

Tamrのコンセプトを、ストーンブレイカー氏は同社のブログにポストした記事「Three Generations of Data Integration Systems」(データ統合システムの3つの世代)で解説しています。

ストーンブレイカー氏いわく、データをETLのようなバッチを中心に統合したのが第一世代のデータウェアハウス、そして第二世代のデータウェアハウスではよりデータを活用するためにデータクレンジングの機能が含まれるようになり、そこからETLはデータキュレーションツールへと拡張されることになる、と説明します。

データクレンジングとは、例えば同じ商品なのに納入元が違うために別々の商品番号がついている、スペルミスや表記の揺れによって1つの企業や人名が重複して登録されている、必要な項目が埋まっていないまま登録されている、といった状態を正していくことです。

ストーンブレイカー氏はここに2つの課題があると指摘します。1つはこのデータキュレーションはデータが大規模になるほど手間がかかるのでスケールが難しいこと、そしてもう1つは、データキュレーションはプログラマには解決できないことです。

この課題を解決するために、専門家のクラウドソーシングによるデータキュレーション機能が必要となり(実際にこうした機能は、例えばInformaticaのような製品にはすでに何年も前から搭載されています)、それを自動化するところまで推し進めようとしているのがTamrのような第三世代の製品だとしています。

データの規模や種類が増えていくにつれて、管理する人間の手間は当然ながら増えていきます。ストーンブレイカー氏はそうした課題に対する新しいアプローチをTamrで行おうとしているようです。

このエントリーをはてなブックマークに追加
Bookmark this on Delicious

タグ : データウェアハウス , ビッグデータ

≪前の記事
SAPとマイクロソフトがクラウドで協業強化。SAP ERP、Sybase(現SAP ASE)、SAP HANAなどを含むSAPの主要ソフトウェアを6月末までにAzureで正式サポートへ

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


新サイト「Publickey Topics」始めました!


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. 最近よく目にする「フルスタックエンジニア」とは何だろうか?
  2. オープンソースのPaaS基盤「OpenShift Enterprise 2.1」リリース。PaaS自体に加えミドルウェアもRed Hatがサポートへ
  3. 社内でStackOverflowのようなQ&Aサイトを始められる「Confluence Questions」、アトラシアンがリリース
  4. 「Fusion-ioは汎用ストレージのベンダになるつもりはない」、転換期を迎えたFusion-io。次の一手を聞く
  5. オラクルがSolaris 11にOpenStackを統合、x86サーバ用独自ディストリビューションも公開。OpenStackを本格展開へ
  6. Heroku Connect登場。Heroku PostgresがSalesfoece.comのデータベースと同期。RailsやJava、PHPなどで企業向けアプリ開発
  7. 今からでも間に合うDockerの基礎。コンテナとは何か、Dockerfileとは何か。Docker Meetup Tokyo #2
  8. Cloud FoundryによるPaaS「Pivotal Web Services」登場。価格面でAmazonと、機能面でIBMと競合へ
  9. OpenStack Foundation、対応製品などを集めた「OpenStack Marketplace」を開始
  10. Gitクライアントの「SourceTree for Windows」、日本語化された最新版が無償公開、アトラシアン
  11. PaaS基盤「Cloud Foundry V2」のアーキテクチャは、どうなっている?(前編)
  12. SAPとマイクロソフトがクラウドで協業強化。SAP ERP、Sybase(現SAP ASE)、SAP HANAなどを含むSAPの主要ソフトウェアを6月末までにAzureで正式サポートへ
  13. PaaS基盤「Cloud Foundry V2」のアーキテクチャは、どうなっている?(後編)
  14. IT系上場企業の平均給与を業種別にみてみた 2013年版 ~ パッケージベンダ、SIer、ホスティング企業編
  15. Docker 0.11が初めての正式版候補としてリリース。来月には1.0が登場か?

Publickey 最新記事 10本

Publickey Topics 最新記事 10本


PR - Books


fig

fig

fig

fig



blog comments powered by Disqus