- 何てことはない、結論はこれだ
手品も種明かしされれば簡単なものだ。
Gunosyのしくみも、難しい説明は一切不要。下の画像を見てください。
Gunosyで配信されてくる記事の全てが、前日のはてなブックマークのカテゴリ別ホットエントリーだ。
つまりは「はてなブックマークの再編集サービス」に過ぎない。
それ以上でもそれ以下でもない。みんなが夢を見ているような夢のAI(人工知能)システムとは程遠いのだ。
もともと、なんでニュースが1日〜2日遅れなのか疑問だった。
1日1回配信だからと言ったって、人が書いてるんじゃないんだからもっと早く出来るでしょうに。
しばらく使ってみて、更に不思議になった。
「全部前日以前に読んだことのある記事だ」って。
これで怪しさに気づいた。記事がはてブで片っ端からホットエントリーになっていたから。
決め手になったのは、みんなが時々つぶやいてるこの疑問だ↓
Gunosyという、Tweetを分析して、おすすめ記事を紹介してくれるサービスがあるのだが、どうも最近スマホのニュースばっかで面白くない。こんだけカープの話題を提供しているのに、野球の話はこれっぽっちも引っかからない。分析エンジンがIT寄りなのかな…?
— Dai Watanabeさん (@Dai_alfa) 2013年5月3日
違う!分析エンジンなんてものはないんだ。そもそも。
はてブユーザーの関心分野の記事しかそもそも引っかかってこない仕組みなんだ。
だから、お前が野球が好きなんてことは、Gunosyはこれっぽっちもわかっちゃいねえ。
そこら辺でバズった記事だから、誰が読んでもそこそこ面白いに決まってる。
そんな記事群からそれっぽいカテゴリに振り分けて配信しているだけだから、何も難しいアルゴリズムや解析エンジンなんてものはないんだ。そんなものは幻想だ。
「自分好みの情報を配信」とか、バカも休み休み言えという話だ。
- 「Gunosy砲」というあり得ない現象
それでも建前上一人ひとりの好みに応じて記事を配信しているGunosyだが、この頃変な現象が頻繁に観測されるようになった。
それが「Gunosy砲」だ。
このブログによると、ものの数時間の間に2500人がGunosyからアクセスし、同時アクセス150人の瞬間風速もあるという。
いや〜Gunosyすごいね〜大きくなったね〜・・・ってちょっと待てよ。
一人ひとりの好みに応じて別々の記事を配信しているのに、どうして1つの記事に何千人もアクセスするの?
簡単な算数をしてみよう。
Gunosyの現在のユーザー数は公式発表で約15万人だ。デイリーのアクティブユーザー(1日にGunosyを使う人の数)は約30%だそうだ。これを事実とすると、1日に4万5000人がGunosyを使っている。そのうち、2500人が同じ記事をクリックする。つまり、その日の全ユーザーの5.55%が同じ1つの記事をわざわざ見に行っているわけだ。
ウェブマーケティングに土地勘のある人ならここで勘づくだろう、この怪しさに。
検索エンジンの検索順位1位のリンクのクリック率は大体約50%だ。2位は10%前後、3位は5%以下に落ちる。だから、2500人のユーザーが1つの記事を見に行くということは、母数(つまりその記事が配信された人数)が最低でも1万6650人以上※いることになる。
※クリック率50%なら、2500人×2=5000人。更にDAU30%だから、5000人×3.33=16650人。
実際はもっと低いクリック率でないと不自然だから、せいぜい10%くらいで計算すべきかもしれない。するとどうなるか。
なんと、8万3250人(ユーザーの過半数!)※に同じ記事が配信されているようだ。
※クリック率10%なら2500人×10=25000人。DAU30%だから、25000人×3.33=83250人。
つまり、Gunosyの50〜60%のユーザーは、自分と全く同じ記事を読んでいるわけだ。
これで「一人ひとりの好みに応じて配信してます」というのはさすがにキビシイw
多分、Gunosyはユーザーのツイッターやフェイスブックの投稿を分析して、キーワードを抽出し、そのキーワードが当てはまるカテゴリにユーザーを放り込んでいる。あとは日々のユーザーのクリックの仕方に応じて、そのカテゴリを組み替えているだけだ。
少なくとも、これくらいのことは数字で分かる。
しかしこんなことにも気づかずに滔々とウェブマーケ語ってる永○一石さんって人はなんだろう?
追記/
遅くに起きてうっかりブログ見てみたらこのバズ。
新ブログ引っ越していきなりだからビビってますともw
生憎これからガキを連れて家族サービス残業しなきゃならないので簡単に追記反論しておこう。
いい補足説明をしてくれた人がいるのでまるっと貼り付け。
Gunosyのレコメンドエンジンが実ははてブの加工にすぎないという身も蓋もない解説がでている。状況証拠として無理はないし、まともにやろうとすると必要になる計算リソースから考えて正しい可能性がある。 angra.hatenablog.com/entry/2013/05/…
— Naoya Ikedaさん (@gorn) 2013年5月4日
@typex20 必要なCPUパワーの時点であなたに合わせてというのは困難です。ユーザベースのレコメンドの場合、ユーザとユーザの距離を出すのでP=u × uのCPUパワーが要りますし。アイテムベースの場合はユーザとアイテム間の距離を出すのでP=u × i になるだけです。
— Naoya Ikedaさん (@gorn) 2013年5月4日
@typex20 どっちも投資コストはいい感じになりそうな気が。というか、スタートアップには無理ではないですかね。Yahoo USAの買収したSummlyのロジックが気になるのですが、僕は利用している端末のCPU資源を活用しないとまともなレコメンドは困難だろうと思います。
— Naoya Ikedaさん (@gorn) 2013年5月4日
@typex20 Amazonが問題なくいけるのは元々、化け物みたいなCPUパワーを持っているからで。さらに、アイテムベースの計算だったはずです。ユーザー数より商品側のほうが数を削れますし、何より恣意的なレコメンドをする余地が生まれますしね。
— Naoya Ikedaさん (@gorn) 2013年5月4日
その通り。
そして反論だが、永○さん。はじめまして、どうも。
はてブでブックマーク少なくても掲載されるという事例があることがわからない方かと “@joe_dys: @isseki3 周知済みかもしれませんが… Gunosyのレコメンドエンジンの仕組み解説goo.gl/YCmoC何か喧嘩売られてますね(笑)”
— Isseki Nagaeさん (@Isseki3) 2013年5月4日
はてなAPIならはてぶ数1でも2でも引っ張ってこられるんだよ、知らないの?
コード書く人ならAPIを見てごらんなさいよ。
APIも見ずに言いません。
あなたのことはフォローして普段から楽しくブログ読んでます。
別にネガティブな意味じゃなくて。
でもGunosyの分析はいただけないのでこの際言いました。失礼を承知で。
それと、「分析が雑」という意見だが、クリック率などは非公表なんだから仮定して計算するしかない。そのうえで最も事実に近そうな数字が検索順位のクリック数だと言っているのだ。
だからその前提で読んでください。推定としてはかなりいい線行ってるはずだけど。
それより事実に近そうなクリック率データがあれば逆に教えてほしい。それをもとにまた計算するまでだ。
そんじゃーね。