データを見える化し、仮説を立て、さまざまな方向からデータを切り分けました。ここまででお腹いっぱいかもしれませんが、“データマイニングを行う上で重要なこと”はまだ続きます。これからお話しする「データの加工」は、今までを凌駕するほど時間のかかる作業になります。
データの現状把握をしたら、次に行うのがデータの掃除(クレンジング)です。意味が同一であるデータを抽出し、統合すること。つまり、複製を除去することで、データを掃除します。「名寄せ」という言葉をご存知の方は、それを思い浮かべてください。
でも、「同じ名前のレコードを1つにまとめることでしょ」なんて思ってデータの掃除をすると、半分以下しか完成できないかもしれません。
例えば、「ネットイヤーグループ株式会社」と「ネットイヤーグループ(株)」は同一企業ですが、完全一致を条件に名寄せをすると、別企業になってしまいます。また、担当者が「株式会社ネットイヤーグループ」と誤った社名を登録している場合もあるかもしれません。
他にも、以下のような複雑なパターンが考えられます。
・結婚して苗字が変わった顧客
・引っ越したことを知らせず、住所が変わった顧客
・M&Aで社名が変わった営業先
・パスワードを忘れ、再度会員登録した顧客
・違う電話番号とメールアドレスで、再度会員登録した顧客
・同一人物らしき、島田花子さんと嶋田花子さん
……などなど。
これらをキレイにすることが重要ですが、かなり面倒な作業です。データクレンジングや名寄せをするツールはありますが、ツールで一気に処理するには正確で詳細なルールを決めなくてはなりません。結局、最後は人がチェックをしなければダメ。この作業を疎かにすると、信頼性が低いマイニング結果となってしまいます。
データマイニングは数値データをマイニングすることを意味します。つまり、数値データしか扱えません。登録住所が「東京都港区赤坂 赤坂ツインタワー」や「大阪府大阪市北区梅田 梅田ビル」、購入店舗が「新宿店」や「梅田店」のままではマイニングできません。これらを一定のルールで数値に置き換える、つまりコード化する必要があります。
生年月日は数値データに見えますが、このままではマイニングには使用できません。「1976年9月21日生まれ」という情報を、今日を基準に「何歳(何カ月)」という形式に変更する必要があります。もちろん、誕生日だけではありません。購入日時や訪問日時などの情報も、誕生日のような変換が必要となります。
「うちのデータは生年月日ではなく、年齢で登録しているので関係ない」と思ったあなたも、要注意です。その年齢が登録されたのは今年ですか? 今年でない場合、経過した年数をプラスしないと正しい年齢にはなりません。
これ以外にも、性別を「女性=0、男性=1」にしたり、自動車の保有を「保有=1、保有していない=0」にしたりと、多くの作業が発生します。
とても地味な作業ですが、データマイニングの過程では、とても重要なステップになります。
[まとめ] データマイニングの前にやること
・データの掃除(クレンジング)
・データのコード化
データマイニングに関するお問い合わせ・ご質問は、下記フォームに必要事項をご入力いただき、送信するをクリックしてください。
ご提供いただきました情報の利用目的は弊社からのNetyearNews送信、情報提供及び営業活動のみとさせていただきます。詳細な個人情報取り扱いにつきましては、個人情報保護方針をご確認ください。送信された情報は、Force.comのシステムを使用してネットイヤーグループが管理、対応いたします。
※フォームはASPを利用しており、通信部分とデータはセキュリティを担保しております。
仕事の合間に! 3分間データマイニング入門