この記事は日経 xTECH有料会員限定ですが、2018年4月19日10時まではどなたでもご覧いただけます。
非公開の属性を「いいね!」から予測できる
今回のスキャンダルの肝は、2016年の米大統領選でトランプ陣営に協力したケンブリッジ・アナリティカが、8700万人のFacebookユーザーから集めたデータを分析することで、ユーザーが本来は公表していない政治的見解や性格などを予測。分析結果を基にユーザーを操るような「ターゲティング」した政治メッセージを送り、トランプ陣営が有利になる選挙工作を実行していた疑いがかかっていることだ(ケンブリッジ・アナリティカは報道後に、このような疑惑を否定するコメントを出している)。
どうしてユーザーがFacebook上で公開した「たわいもない」情報、性別や友達関係、「いいね!」した記事や商品の情報などから、政治的見解や性格などが分かるのか。ケンブリッジ・アナリティカの元データサイエンティストであるクリストファー・ワイリー(Christopher Wylie)氏の告発によれば、ケンブリッジ・アナリティカの手法は、ケンブリッジ大学の博士課程に在籍していたマイケル・コジンスキー(Michal Kosinski、現在はスタンフォード大学の准教授)氏が2013年に論文発表した研究がベースになっているとされる。
同論文「Private traits and attributes are predictable from digital records of human behavior」は、Facebookの「いいね!」情報から、その人の性的嗜好や民族、宗教、政治的見解、性格、IQ、幸福度、薬物の使用の有無まで予測できると実証した。
コジンスキー氏のアプローチはこうだ。コジンスキー氏は5万8000人のFacebookユーザーに「性格診断アプリ」をインストールさせた。この性格診断アプリは、ユーザーに自身の属性に関する様々な質問に答えさせると同時に、フェイスブックが用意するAPI(アプリケーション・プログラミング・インタフェース)を使い、ユーザーのプロフィールや「いいね!」情報を入手した。
実はコジンスキー氏の研究において、ユーザーが自分の性格を知るために回答した内容こそが重要だった。コジンスキー氏はユーザーが回答した属性と、その人がFacebookで「いいね!」した対象との相関関係に着目。「いいね!」した情報からそのユーザーの様々な属性を予測するモデルを開発したのだ。
コジンスキー氏が開発した予測モデルは、ユーザーの「いいね!」情報に基づいて様々な属性を正確に予測できた。予測モデルの正解率は白人かアフリカ系アメリカ人かが95%、性別が93%、ゲイか否かが88%、支持政党が85%、薬物使用の有無が65%だった。