LinkedIn、データマイニングソフト「WhereHows」をオープンソースに

Larry Dignan (ZDNet.com) 翻訳校正: 編集部 2016年03月04日 11時05分

  • このエントリーをはてなブックマークに追加

 ビジネス特化型SNSのLinedInは、社内で利用しているエンタープライズ情報のデータマイニングポータル「WhereHows」をオープンソースとして公開すると発表した。

 LinkedInはWhereHowsを「データ発見・系統付けポータル」と呼んでいる。ビジネスの観点から見ると、WhereHowsはメタデータを利用して複数のデータストアからデータを発見し引き出すためのソフトウェアだ。

 LinkedInによれば、同社のWhereHowsのレポジトリは、容量にして合計で15ペタバイトを超える5万件のデータセット、1万4000件のコメント、3500万件のジョブ実行履歴情報、および関連する系統付け情報のステータスを保持しているという。

 同社はブログ記事で、WhereHowを作った理由を説明している。同社のデータエコシステムは個々の作業に特化して設計されたアプリケーションが増えすぎた結果多様化が進み、さまざまなスケジューラや「Infomatica」「Spark」「Hive」「Oracle」「Hadoop」「Teradata」など、ありとあらゆるシステムを包含するようになってしまったという。さらに同社は次のように述べている。

 LinkedInのビッグデータエコシステムは、多様化が進みすぎてしまった。当社は多数の異なるデータソースやデータストアを持っている。このため、さまざまなスケジューリングエンジンによって動作するいくつものプロダクションパイプラインを作成しており、さらにデータを引き出し処理するのに用いるさまざまな変換エンジンをサポートしている。この種の専門化は、作業に最も適したツールを利用できるという点では優れているが、別の新たな問題も生み出す。さまざまな処理フレームワークやデータプラットフォーム、スケジューリングシステムにまたがるデータのフローと系統を全体的に把握することが、非常に難しくなってしまう。これによって、知見を得るために適切なデータセットを見つけようとする従業員の生産性が低下したり、破損したデータの発見や優先順位付けの作業が困難になる、重複する計算処理の発見と排除の機会が失われるなどの、多くの問題が生じる。

 WhereHowsはLinkedInが持つさまざまなデータ処理ソフトウェアを統合し、メタデータを取り込む。その後、ウェブアプリおよびアプリケーションプログラムインターフェース(API)を通じて、データを発見する。WhereHowsのパーツには、レポジトリ、ウェブサーバ、他のシステムからメタデータを取得するバックエンドサーバが含まれる。

 アーキテクチャは、以下の図のようになっている。


 LinkedInは、オープンソースコミュニティーにWhereHowsを公開することで、このソフトウェアの開発に支援が得られることを期待している。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
内山悟志「IT部門はどこに向かうのか」
データドリブンな経営
情報通信技術の新しい使い方
米ZDNet編集長Larryの独り言
谷川耕一「エンプラITならこれは知っとけ」
田中克己「2020年のIT企業」
大木豊成「Apple法人ユースの取説」
林雅之「スマートマシン時代」
デジタルバリューシフト
モノのインターネットの衝撃
松岡功「一言もの申す」
三国大洋のスクラップブック
大河原克行のエンプラ徒然
今週の明言
アナリストの視点
コミュニケーション
情報系システム最適化
モバイル
モバイルファーストは不可逆
通信のゆくえを追う
スマートデバイス戦略
セキュリティ
ベネッセ情報漏えい
ネットワークセキュリティ
セキュリティの論点
OS
XP後のコンピュータ
スペシャル
より賢く活用するためのOSS最新動向
HPE Discover
Oracle OpenWorld
AWS re:Invent 2015 Report
「Windows 10」法人導入の手引き
北川裕康「データアナリティクスの勘所」
Windows Server 2003サポート終了へ秒読み
米株式動向
マーケティングオートメーション
AWS re:Invent 2014
Teradata 2014 PARTNERS
Dreamforce 2014
Windows Server 2003サポート終了
実践ビッグデータ
VMworld 2014
中国ビジネス四方山話
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化
NSAデータ収集問題