第6回 データマイニングを行なう上で重要なこと2
[データの現状把握]

業務に関連する大量のキレイなデータを揃え、マイニングツールを購入しました。あとは、マイニングツールにデータを投入するだけで、今まで発見できなかった法則が見つかるのでしょうか。ちょっと待ってください。マイニングツールを最大限活用するには、その前にやるべきことがあります。それが、データの現状把握です。

データマイニングの前に、データの見える化をして仮説を立てる

あなたは、ECサイトのメールマーケティング担当者です。売上アップのために集めた何十万、何百万、何千万ものレコードデータには、数字、アルファベットの文字列、都道府県名、購入金額が並んでいます。長年の経験で、このデータの中身をなんとなく把握してはいても、どんな属性のお客様が、どんな商品を購入したのか、全体は見えていません。

そこで必要となるのが、全データの傾向やバラつきなど、全体像を把握するためのグラフや、ヒストグラム、散布図などの作成。つまり、「データの見える化」です。「データの見える化」をすることで、2つのメリットが得られます。

・極端に集団から外れているデータを発見できる。
・データマイニングを行う前に、仮説を立てることができる。

仮説やルールを発見するためにデータマイニングをするのに、予め仮説を立てるなんて、と思われた方もいるでしょう。でも、見える化したデータから立てた仮説と、データマイニングで導き出された結果が大きく異なっていたら、“おかしい”ことに気づけるし、データを見なおすことができます。小さな差であれば、その差が生まれた原因は何か、データを深掘りすることができます。

もちろん、長年の実務経験がある人なら、データの見える化をした後に立てた仮説と、データマイニング結果が一致することもあります。それならば、データの見える化さえすれば、データマイニングは必要ないのでは?となりますが…

積み重ねた経験値は定量的に測り得ないものであり、経験に裏打ちされた勘(仮説)は、真似しようにも真似できないものです。データマイニングの結果が、その仮説と同じだった場合、真似できないものが真似できるようになったという証拠。データマイニングによって、「なぜ、その仮説が導き出されたのか」が定量的に定義されるようになります。

個別データの見える化で、これまで見えなかった問題が浮き彫りになることも

全体のデータの見える化をしたら、次は切り口を変えて、個別データの見える化を行いましょう。例えば、都道府県別と性別のデータを切り出したり、購入金額ごとにデータを切り出したり。こうすることで、今まで見えてこなかった問題が浮き彫りになることがあります。

ファッションメインのECサイトだから、全国的には女性の購入回数が多いが、なぜか、東京都だけ男性と女性の購入回数がほぼ同等。

データを切り分け、さまざまな方向から見える化することで、こうしたことがわかったりします。
ところで、なぜ東京都だけが男性と女性の購入回数がほぼ同等だったのか。どうしてもその原因がわからない場合、データ自体に間違いがある可能性もあるので、収集したデータに立ち戻り、確認することをおすすめします。

[まとめ] データマイニングの前にやること
・データの見える化
・仮説の立案
・データの切り分け

バックナンバーはこちら

お問い合わせ・ご質問はこちら

データマイニングに関するお問い合わせ・ご質問は、下記フォームに必要事項をご入力いただき、送信するをクリックしてください。

個人情報の取り扱いについて

ご提供いただきました情報の利用目的は弊社からのNetyearNews送信、情報提供及び営業活動のみとさせていただきます。詳細な個人情報取り扱いにつきましては、個人情報保護方針をご確認ください。送信された情報は、Force.comのシステムを使用してネットイヤーグループが管理、対応いたします。
※フォームはASPを利用しており、通信部分とデータはセキュリティを担保しております。

仕事の合間に! 3分間データマイニング入門

  •  

プライバシー

ネットイヤーグループ株式会社

107-0052  東京都 港区 赤坂2-17-22  赤坂ツインタワー本館13F

03-6369-0500 (代表)

(代表)