情シスから始まるデータ分析

データサイエンティストとマーケが喜ぶデータ基盤の作り方

安部晃生 2016年02月18日 07時30分

  • このエントリーをはてなブックマークに追加

 データ分析にはどのような基盤を構築すれば良いのかーー。データ分析を考える上でまずは、ビジネス情報はどのようにデータとして存在するのかを考えてみよう。小規模レベルでは逐次入力されるスプレッドシートに、ある程度の規模のビジネスであれば自動化されたシステムを通じて入力されるリレーショナルデータベース(RDBMS)に、日々のビジネス活動とともに蓄積されていくものである。

 どのような形式であれ、ほとんどの企業がビジネス情報をデータとして蓄積しているはずだ。本稿ではスプレッドシートやRDBMSといったソフトウェアの違いを特に区別せず、蓄積されたデータの集合のことを“データベース”と呼ぶことにする。

 大概の企業がデータベースを持っている一方、世の中のデータ分析を軸としたデータ活用の機運の高まりに反して、データ分析に着手できている企業が少ないと感じる。データベースの存在とデータ分析の間には、いったいどのようなギャップが存在しているのだろうか。データ基盤の作り方を考えてみよう。

蓄積されているデータは分析に利用できるか

 そもそもデータを蓄積する目的とは何であろうか。その目的はデータ活用だが、それは業務効率化を目指したデータ蓄積である。業務効率化のためのデータとは、低コスト化や業務速度を向上させることを指す。

 したがって業務上問題がない以上はデータに品質を求める必要がない。品質を求めて運用上コストを増大すると、データベースとしての低コスト化の役割に反してしまう。

 一方、データ分析が要求する「データ」は、データが持つ骨子を抽出するため、品質が要求される。データ分析のためのデータとは、業務効率化のためのものとは性質が異なることを認識してほしい。業務効率化のためのデータがコスト削減のための“守りのデータ”とするならば、データ分析向けのものは利益創出のための“攻めのデータ”といえる。

 データ分析が要求するデータの品質とは、データが“そろっている”ことを指す。例えば人名について、漢字表記でもカナ表記でも同一人物を指すケースがある。このシステムは漢字表記であるが、他方ではカナ表記を採用していることがままある。運用上ではどちらの表記であっても問題なく業務は達成できるだろう。

 ところが、仮に分析により、これらのシステム間のデータをまたいで個人を紐付けたいとしたらどうだろう。システムを超えてIDが割り振られているならそれをキーに紐付ければよいが、異なるシステムで統一されたIDが存在するなどまれだ。そうなるとシステム間の個人の照合は困難を極める――。いわゆる名寄せの問題である。名寄せが適当な状態で分析を実施しても十中八九意味をなさない。また、名寄せ以前の問題として、存在しえないデータがなぜかデータベースに入っていたり、半角全角や送り仮名のような表記揺れといったデータの非整合性が見られたりと、データクレンジングがないまま分析を実施しても散々な結果を得ることになる。

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
内山悟志「IT部門はどこに向かうのか」
データドリブンな経営
情報通信技術の新しい使い方
米ZDNet編集長Larryの独り言
谷川耕一「エンプラITならこれは知っとけ」
田中克己「2020年のIT企業」
大木豊成「Apple法人ユースの取説」
林雅之「スマートマシン時代」
デジタルバリューシフト
モノのインターネットの衝撃
松岡功「一言もの申す」
三国大洋のスクラップブック
大河原克行のエンプラ徒然
今週の明言
アナリストの視点
コミュニケーション
情報系システム最適化
モバイル
モバイルファーストは不可逆
通信のゆくえを追う
スマートデバイス戦略
セキュリティ
ベネッセ情報漏えい
ネットワークセキュリティ
セキュリティの論点
OS
XP後のコンピュータ
スペシャル
より賢く活用するためのOSS最新動向
HPE Discover
Oracle OpenWorld
AWS re:Invent 2015 Report
「Windows 10」法人導入の手引き
北川裕康「データアナリティクスの勘所」
Windows Server 2003サポート終了へ秒読み
米株式動向
マーケティングオートメーション
AWS re:Invent 2014
Teradata 2014 PARTNERS
Dreamforce 2014
Windows Server 2003サポート終了
実践ビッグデータ
VMworld 2014
中国ビジネス四方山話
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化
NSAデータ収集問題