あるあるビッグデータ in Digital Marketingシリーズ – SEASON 1 : あなたのデータは宝かゴミか? – 第4話「お宝データってどんなデータなのか?」
こんにちは。金澤です。
一気に寒くなってまいりました。そろそろポロシャツをタンスの奥に仕舞わねば。さて、初回から少し振り返りましょう。第1回は特売データを例に挙げたゴミデータ発生の謎をお話しました。第2回は、未来の飯のためにデータ分析をしましょうというお話。残念なぐらい大抵の顧客データはスカスカで、しかも再パーミッションが障害になって属性を取りに行けないというお話でした。
そして前回の第3回はデータの断捨離のお話。何をゴミ認定して前に進むべきかをお話しました。そして、第4回は、このSEASONの締めとして、「お宝データってどんなデータなのか?」についてお話したいと思います。
1. 予測分析とID
ご存知の言葉、ID。Identifyの略です。すなわち、「識別子」を意味します。
このID、データベース管理には絶対必要なもので、すべてのデータベースは必ずIDを持っています。しかし、残念なぐらいマーケティング分析に向いていないケースが多いのです。
多少乱暴に書きましたが、少なくとも昨今期待されている予測分析、すなわち「誰が何を買う(買いそう)か?」という分析を行うにあたって、これは本当によく起こる話です。その原因をシンプルに言うと、「ヒト」のIDで「行動」を引き当てられないということを意味します。
第1回と第2回でこの辺は触れていますが、そもそも今あるデータベースは売り上げや在庫の管理に使われていたものですから、ヒトで引き当てるように出来ていません。デジタル隆盛の昨今、これを繋げようという試みがなされたわけですが、コスト高と再パーミッションという障害から思うように行きません。
逆に言うと、今必要とされている「誰が何を買いそうか?」という予測仮説を導く分析は、「ヒトID」で「行動履歴」を引っ張ることができれば解決します。
2. 予測分析とデータマイニングの超サマリー
ここで少し脱線して、予測分析とデータマイニングを超カンタンに説明させてください。
以前、アナリストのコストフさんのシリーズでこの辺は述べられていますが、もっとシンプルに。
A)予測分析とは?
未来を予測します。ユーザーが次に何をするかを予測します。
基本的に確率論で出します。
ただ、ユーザーの未来はタイムマシンに乗らないと分からないので、「行動パターンが似た他のヒト」に代入して考えます。
この図のように、過去りんごを買ったヒトが高確率で梨を買ったという事実を未来に代入、つまりリコメンドすると、梨が売れそうな感じがしますよね?
予測分析はこの高確率パターンを可能な限り見つける分析です。
上記はりんごと梨でシンプルなものですが、実際は類似した行動パターン(クリック履歴や接触回数、購買頻度など)を複雑に組み合わせてスコアを作り、統計モデルにします。
B)データマイニングとは?
データマイニングとはデータ分析手法の一つです。
マイニング=鉱山採掘を意味し、データ鉱山から貴金属を掘り当てることを暗喩しています。基本的に、大量データの中から特定の結果を導くパターンを導き出すことの総称としてデータマイニングと呼びます。
上記の予測分析において、品目が10,000点あった場合を考えてみましょう。仮に1回目の購買が10,000通りあった場合、2回目の購買も10,000通りあります(りんご→りんごもあり得るので)。仮に3回目まで考えると、10,000の2乗=1億通りのパターンが存在します。仮に全パターンを集計して分析の対象とするなら、人間業では無理です。なので、履歴をデータベースに格納し、一番確率の高いものを瞬時に集計できるようにする必要がります。
つまり、Aで述べた予測分析の結果を、いろんな軸からコンピュータで引っ張り出せるようにすることです。たとえば、りんごじゃなくてみかんの場合、や、梨の次に何を買うか、などです。
これまでのマーケティングは売れ筋を軸に「次」を分析するのが基本でしたので、「りんごを買った人が次に買うトップ10」だけわかれば十分でした。つまり、分析などせずとも、担当者の勘と経験や特売の一撃で売り上げを担保できました。しかし、現代のマーケティング、特に多品目販売では、死に筋も含めて総合的な回転率を上げに行きます。特にeコマースでは陳列パターンを無限に取れる一方で接触面積はPCやモバイルを通じた画面のみですから、買う気のある消費者のインターフェースに何を見せ続けるか、は極めて重要なことです。
ですので、予測分析を広い範囲で適用するためにデータマイニングを必要とするようになりました。一方で、このシステムは非常に高度でかつ高単価・巨大なものでした。これが、昨今のクラウドコンピューティングやhadoopのように比較的安価な高速解析ミドルウェアによって一気に手頃になり始め、マーケティングの世界にビッグ・データブームが到来しています。
3. お宝になるデータとは何なのか?
上記で述べたようなシステムやロジックを駆使してデータを回すにあたり、良い予測分析結果、すなわち「誰が次に何を買いそうか」を引き出せる「お宝データ」とは何なのかについてお話ししましょう。
実は既に述べてしまっています。
それは「ヒトID」で「行動履歴」を引っ張ることができる、ということです。
マーケティングの分析をするにあたって、最大の問題点は、行動履歴とヒトIDが紐付かないことです。これまでお話したように、不要なゴミデータを取り除き、無駄なコストを使わないことは重要です。一方で、この不要なコストを、「宝データ」の仕組みづくりに投資することが極めて重要です。
一方で、それでもまだ問題点があります。それは、非会員もしくはログイン前のヒトをどう識別するのかということでしょう。
実際、多くの会員制ウェブサイトは予測分析を駆使し、会員に対する様々な施策を打つことでユーザーの満足度を上げ、収益を上げに行きます。一方で、会員自体を獲得するとき、予測分析は使えません。なぜなら、サイト運営側の持つ「ヒトID」に登録されていないので、パターンを呼び出す履歴もありません。
ここで、ポイントになるのがアノニマス識別です。
4. アノニマス識別とは
はい、このアノニマス、あのハッカー集団のアノニマスではありません。本来の意味である「匿名」を指します。もっと正確に言うと、ヒトID付与前の見込みユーザーを指します。
アノニマスすなわち「匿名」の状態で如何に見込みユーザーを識別し、彼らの履歴から予測分析を行い、会員化の確率を上げるか?
これには大きく3つのパターンがあります。
A)リファラ分析
原点回帰。超シンプルですが、どこから来たのかの分析です。
LPOといってもいいでしょう。
アクセス解析を行えば流入前情報を行うことができます。
検索ワードやクリックした広告のID、直前にいたサイトなどの情報です。ここではこれらを総称してリファラ情報と読んでしまいましょう。
解析システムにちょっとした仕掛けは必要ですが、過去のリファラ履歴を分析すれば、どこから来たユーザーが何をするかは簡単に知ることが出来ます。
あとは、あなたのサイトのランディングページや顧客導線を予測仮説に合わせて改善するだけです。
B)リターゲティング広告
一度訪問したけれどコンバージョンせずに離脱してしまったユーザーを狙い撃ちして広告を打つ手法です。基本的に、コンバージョンしたユーザーはヒトID化されているという前提で考えると、それ以外のアノニマス(訪問したことはあるけれど誰だかわからない)を考えるにはこれがベーシックな打ち手と言えます。
ちなみに予測分析は基本的に広告配信側で行われ、広告の露出コントロールなどは設定一発で完了します。ただ、誰にどんなクリエイティブを見せるか、何回見せるか、どこで刈り取るか(広告クリックじゃなくてオーガニック検索も含めるなど)のパターン分析は自分でやるか、配信業者にコンサルティングを頼むことになります。もちろんやらなくてもそれなりの成果は見込まれますが、予測分析の勉強のためにも自分でやってみることをお勧めします。
C)オーディエンス拡張広告
リダーゲティングの強化版とも言える仕組みです。
非常にざっくり言うと、リターゲティング対象者と似た属性のヒトにも広告を狙い撃ちするということです。リターゲティングは自社サイトを訪れたヒトのみにしか打てませんが、まだ来たことのない見込みユーザーを狙い打てるため、高確度かつ分母拡大が最大のメリットです。
ここで言う「拡張」とは、要は「似た属性のヒトにターゲットを拡張する」ということで、この予測分析も配信側で行ってくれます。
D)ソーシャル・ログインからのLook alikeターゲティング広告
こちら、ややトリッキーですが、こういうやり方もありますという意味で。まず、コンバージョン時にソーシャル・ログインを活用することが前提です。これによって、会員かつFacebookユーザーの「ヒトID」が確保できます。このリストを使って、Facebookが提供するlook alikeターゲティング広告を行うというものです。
このLook alike広告は日本では類似オーディエンスと呼ばれており、要はオーディエンス拡張広告のFacebook版のことです。
つまり、過去にコンバージョンしたユーザーに似た属性を持つ見込みユーザーに広告を狙い撃ちします。広告リーチを広げれば広げるほど、類似度が薄くなりますので効率は下がりますが、適切な幅で運用すれば、なかなかの効果を見込むことができます。
もちろんこの類似度すなわち予測分析はFacebook側でやってくれます。
このように、まだ識別できていないアノニマスでも識別は可能です。
もちろん、個人情報は入手できませんから匿名のままですが、極論、どこの誰だかわからなくても、「買ってくれそう(会員になってくれそう)なユーザーは誰か?」を予測することは可能なのです。
5. 宝はどこにしまおうか?
これまでお話ししたように、様々な購買・会員化履歴を「ヒトID」で紐つけていくことこそ、「宝のデータ」を作り出すことと言えるでしょう。
過去のコンバージョン履歴を「ヒトID」から逆引きして様々なパターンを見つけることが予測分析であり、予測分析の手法の一つがデータマイニングであり、たとえアノニマスであっても、識別して最適なアクションを打つことが可能です。一度この仕組みを作れば、未来に向かってどんどんお宝の分母を増やすことができます。分母が増えると予測確率の信憑性が上がり、フレッシュなデータを取り続けることでデータそのものの陳腐化も防ぐことが出来、結果として施策成績も向上するという好循環が生まれていきます。
ただ、一つ問題が。この大事なお宝データをどこにしまえば良いのでしょう?
広告配信側にすでに環境があるからそこでもいいだろうか?自社の会員情報は出せないな。かといってバックエンドにしまい込んではマーケティングに必要なスピードで処理できない。なにより、自社内の環境でマーケティング用に自由に設計することは出来ない…。
このような問題を解決するために出てきた考え方が、DMP(データ・マネジメント・プラットフォーム)であり、さらにこのDMPに広告出稿やSNS・メール配信機能を接続しようという考え方がマーケティング・クラウドなのです。
このお話は、またいずれお話しましょう。
6. 終わりに
第4回目となる、あるあるシリーズSEASON1、「あなたのデータは宝かゴミか?」は、今回が最終回となります。これまでの全4回で、「今あるデータに価値はあるのか?」「もし仮に価値が低いとしたら、まず何をどうしようか?」という点に絞ってお話ししてきました。次回からは新しいSEASONに入り、少しずつ込み入ったお話をご紹介できればと思っております。
ともあれ、過去に固執せず、勇気を持ってデータを捨てましょう。新しい時代のデータは、これから作っていかなくてはならないのです。そしてそのソースはどんどん出てきます。我々が過去を振り返っている間にも。
ストラテジック・フェロー 金澤 一央(記事一覧)
・I-COM Data Creative Award 審査員
・ニューヨーク大学大学院、School of Professional Study, M.S. Integrated Marketing在籍中
・主な講演・セミナー・寄稿等:日本経済新聞社、JADMA、インプレス、ビジネスブレークスルー大学など
ネットイヤーグループ、オンラインメディア測定に関する国際団体「I-COM」が主催する国際コンペティションの審査員に弊社金澤、コストフが就任(2015年4月17日)