Facebook 日本人ユーザ約1150万人のユーザ ID を集めてみました
以前、 [婚活] facebook で日本人ユーザの ID 一覧を取得する という記事を書きました。そこで示したスクリプト(をちょっと改変したもの)をぐるんぐるん回し、日本人ユーザとして登録されている人のユーザ ID が1150万人分ほど集まりましたので、ここに共有したいと思います。
原理としては、 facebook の全ユーザについて、ユーザ ID 1番から順番に地域をチェックし、日本と登録されているもののみ ID を保存しています。これだけの日本人を得るために数十億人分の ID をチェックしてます。
[ ダウンロード ]
追記:どうやら Facebook Platform Policies の II-6 に引っかかり facebook から得た個人情報の再配布はできない(らしい)ので引っ込めました。ご了承ください。
解凍していただきますと、2つのフォルダがあります。”type1″ フォルダには100000000000000番以降のものが、 “type2″ にはそれ以前のものが、適当に分割されて格納されています。
https://www.facebook.com/profile.php?id=[ID]
にアクセスすることで、その人のプロフィール等を見ることができます。
正確に記すならば11519374人分の ID が格納されています。スクリプトを回していたのは3月ですので、それ以降の登録者は含まれていません。また、途中で国籍を変更する場合もありますので、実際には日本人でない人が含まれていたり、日本人でも必ずしも含まれていなかったりします。しかしながら、このリストが日本人ユーザ一覧を得るもっとも手軽な方法であることにはおそらく間違いがないでしょう。
ID を使って何が得られるかという話なんですけど、 fql の user テーブルを参照することで該当ユーザの名前と性別、地域(全員 ja_jp )、プロフィール画像が得られます。もっと詳しい情報が得られる可能性もありますがやや面倒そうです。
これだけの情報で何ができるのって話ですが、いろいろできそうですよね。プロフィール画像が手に入れば「日本人の平均顔」とかできそうですし、名前データも併用して「斎藤さんの平均顔」とか作れるかもしれません。画像処理が得意なら「そっくりさん検索サービス」みたいなの立ち上げられるかもしれないですね。元カノの写真をクエリにするとそっくりさんが多数検索される、みたいな、はいそれはそれで辛いですね。
Oppai-Detect を応用することで「プロフィール画像でおっぱいを晒してる日本人女性ユーザ一覧」みたいなの作れちゃう気もしますが、絶対作らないでくださいね! 別件なんですけど作ったらそのリスト僕にください。
何にせよ特定の国籍の ID 一覧は公式には提供されていないので、それを利用した面白い何かは開拓の余地がありそうです。
ちょうど Google BigQuery が公開されたことですし、それと絡めるのも面白いかもしれません。データ量的にはビッグデータといえるほどビッグではないかもしれないですけれど。
関連記事:
- [婚活] facebook で日本人ユーザの ID 一覧を取得する
- 『2chまとめブログ風2chビューア』を作ってみました
- 東大関係者ツイッターユーザのデータまとめをつくりました
- 「ザ・インタビューズ」の出るべくして出た感
- 東大クラスタがフォローすべき東大生ツイッターユーザ12名
これってFacebookの利用規約違反なのでは?
確認される事進めます。
これは、Facebook利用規約3.2の「Facebookユーザーのコンテンツまたは情報を収集することはできません。また、弊社の許可を得ることなく、自動化された手段(情報収集ボット、ロボット、スパイダー、スクレーパーなど)を使用して、Facebookにアクセスすることはできません。」に完全に反していると思われますので、削除された方がよろしいと思います。