Top 10 Coolest Big Data Startups Of 2014という記事がありまして、はじめて名前を聞く企業が多くありましたので簡単に調べてみました。ホントに簡単に調べただけです。正確には記事の説明+HPのトップをざっと見ただけですので、そんなものがあるのかー、くらいのノリです。
1. SumAll
FacebookやTwitter, eBayやInstagramなど、42種類のソーシャルとEコマースサイトのデータからデータを可視化することができるオンラインのプラットフォームを提供してくれる、とのこと。今年に入っていくつかの機能追加を行い、例えば、リツイートやメンションの数によってアラートを発してくれるようなシステムが追加されたとのこと。
2. Luminoso
テキスト分析に強みがある会社ぽいです。MITメディア・ラボからのスピンアウトみたいですね。
3. Flatiron Health
2012年に元Googleの2人によって創設されたみたいです。医療データに特化したプラットフォームOncology Cloudを開発しているみたいです。ガンを含む腫瘍に特化したデータを取り扱うプラットフォームみたいですね。
4. Domo
クラウドベースのプラットフォームみたいです。強みは正直読み取れませんでした。。。
5. Alpine Data Labs
ドラッグアンドドロップベースの分析クエリ作成というのが特徴なんですかね。Hadopベースのデータソースでも、RDBでも大丈夫で、モデルを共用しながらチームでの共同作業も得意だよ、とのことです。
6. Altiscale
元Yahoo CTOによる、Apache Hadoopを動かすクラウドサービスということです。Apache Hadoopをクラウドで動かせることの利点はよくわかっていません。
7. Tamr
Tamrは割と注目しています。DB界の大物のストーンブレイカーさんが関わっているということでPublickeyでもとりあげられていました。 Tamrは少し真面目に調査していて、大変おもしろいので、また別エントリでまとめたいと思います。取り扱うデータ規模が大きくなりつつある昨今のETLに関わる課題の一つで、バラバラに散らばったデータを良い感じに取り扱うというのは、Apache DrillやPrestoが切り開きつつある領域かと思います。Tamrも同じ課題感を解決しようとしているETLではありますが、「目的に合わせて何のデータを集めるべきか」をTamr自身が考える、というのが最大のポイントとなります。(DrillやPrestoだとクエリ自体は人間が作成/発行する必要がありますので、そこが違いかなぁと)。取得すべきデータの選別は、地味なようで、データの規模や種類が増えつつある最近では、ETLの課題における最大の問題の一つかと思います。
8. Cloudera
Clouderaは有名なので割愛、直近で大きな資金調達もありましたね。
9. DataGravity
こちらもDomoと同じく強みがよくわかっていません。。。
10. Elasticsearch
@johtaniさんにTwitterでメンション飛ばせば全てが理解できます(違
ちなみに2013年度版っぽいのはこちらです。
2013年度版に関しては、今や空前のSparkブーム(自分の観測範囲に限る)で飛ぶ鳥落とす勢いのDatabricksや、今の会社の関係で少し繋がりがある、Skytree なんかが目を引く所でしょうか?(他を知らなすぎるだけですが。。。反省。。。)
2013年度版をざざっと見た感じではMachine Learningという用語がちらほら出てるように思えますが、2014年度版ではそういう記述が見当たらなくなっていますので、Machine Learningが徐々に一般的になり、サービス内に組み込まれるようになってきたからかなー、などと色々と想像が膨らみますね。
BigData, Machine Learningなど、日本でその用語を使ってる企業/サービスへの胡散臭さがまだまだ消えきれない2014年現在ですが、米国では間違いなく、そういったキーワードを中心に人/モノ/金が動いているようですので、ソーシャルやアドテクといったこれまでの流れと同じく1,2年後のビッグウェーブはやってくるのではないでしょうか。