この記事は日経 xTECH有料会員限定ですが、2018年4月19日10時まではどなたでもご覧いただけます。

 ケンブリッジ・アナリティカにフェイスブックのユーザーデータを売却したのは、英ケンブリッジ大学の研究者、アレクサンドル・コーガン(Aleksandr Kogan)氏だ。コーガン氏も2013年に、コジンスキー氏を真似てFacebook上に「thisisyourdigitallyife」という性格診断アプリケーションを公開し、27万人のユーザーにインストールさせた。その結果、8700万人ものユーザーデータを集めただけでなく、Facebook上のデータからユーザーの様々な属性も予測できるようになったもようだ。

 米ニューヨーク・タイムズ紙にワイリー氏が告発した内容によれば、コーガン氏はケンブリッジ・アナリティカに対して、ユーザーの「開放性」「良心」「外向性」「愛想の良さ」「気難しさ」といった性格だけでなく、「IQ」や「人生の満足度」「政治的スタンス」「職業」「銃器規制に対する意見」などが分かると述べていたという。

想像もつかなかった「無料」の代償

 多くのユーザーは、Facebookを無料で使えるのは自分のデータを差し出しているからだと理解はしているだろう。しかしユーザーが差し出した「いいね!」などの情報があれば、ユーザーがFacebookで公開していない属性までも、高い精度で予測できてしまう。ユーザーとしては、大いに戸惑うポイントではないだろうか。

 実はフェイスブック自身も、Facebook上のユーザーデータから様々な属性を予測する手法を、自社の「ターゲティング広告」に活用している。2014年に開始した「類似オーディエンス(Lookalike Audience)」という機能がその一例だ。

 類似オーディエンスは、広告主が保有する顧客リストをフェイスブックの広告システムに登録すると、その顧客に似ているユーザーをフェイスブックが探し出す仕組みだ。広告主は既存の顧客に似ている、つまり見込み客として有望なユーザーに対してターゲティング広告を出せるようになる。

 具体的な仕組みはこうだ。フェイスブックはまず、広告主が登録した顧客リストに含まれるFacebookユーザーに共通する「利用者情報や興味・関心などの特徴を特定」(同社資料より)し、広告主の顧客になる可能性が高いユーザーを予測するモデルを作る。そのモデルを他のFacebookユーザーに適用することで、見込み客として有望かどうかを予測する。フェイスブックによれば、既存の顧客リストに含まれる人数が1000~5万人あれば、モデルの精度を十分高くできるのだという。

 ユーザーの属性を予測するモデルを作るうえでは、Facebook内外のデータを組み合わせることが重要だ。コジンスキー氏のアプローチでは、ユーザーに「クイズ」を答えさせることでFacebook外のデータを入手していた。もっと便利な方法がある。「データブローカー」が販売する消費者データとフェイスブックのユーザーデータを結び付けてしまうのだ。

「予測によるプライバシー侵害」はあり得る

 実はフェイスブック自身も、広告主に対してデータブローカーが販売する消費者データを活用する仕組みを提供していた。「パートナーカテゴリ(Partner Categories)」という機能で、広告主はデータブローカーが販売する顧客リストを使って「類似オーディエンス」のような機能を利用できた。米アクシオム(Acxiom)や米オラクル(Oracle)の「Oracle Data Cloud」(旧社名はDatalogix)、日本のCCCマーケティングなどがパートナーカテゴリで情報を提供していた。

 フェイスブックはケンブリッジ・アナリティカの疑惑が報道された10日後の2018年3月28日(米国時間)に、パートナーカテゴリの廃止を発表している。発表文では、パートナーカテゴリのような取り組みが「業界では常識的なもの」だとしながら、これを廃止することによって「Facebook上のプライバシーを改善できる」と述べている。Facebook内のユーザーデータと、Facebook外のデータを組み合わせることによるプライバシー侵害があり得ることを、フェイスブック自身が認めたに等しい。

 ユーザーが公開している情報から、公開していない属性などを予測する行為は一般に「プロファイリング」と呼ぶ。プロファイリングのようなユーザーデータの分析とそれに基づくターゲティング広告は、フェイスブックのビジネスモデルの根幹だ。ビジネスモデルそのものにプライバシー侵害の危険性があると危惧されたからこそ、スキャンダルの発覚後に同社の株価は大きく下落した。