ベンチャー・アンダーグラウンド

ベンチャービジネスのインサイダー原島水樹のブログ。最近はアーリー〜シリーズBまでのスタートアップをウォッチ。

Gunosyのレコメンドエンジンの仕組み解説

  • 何てことはない、結論はこれだ

手品も種明かしされれば簡単なものだ。
Gunosyのしくみも、難しい説明は一切不要。下の画像を見てください。
Gunosyで配信されてくる記事の全てが、前日のはてなブックマークのカテゴリ別ホットエントリーだ。

f:id:harashimamizuki:20130503225747j:plain

 

つまりははてなブックマークの再編集サービス」に過ぎない。
それ以上でもそれ以下でもない。みんなが夢を見ているような夢のAI(人工知能)システムとは程遠いのだ。

 

もともと、なんでニュースが1日〜2日遅れなのか疑問だった。
1日1回配信だからと言ったって、人が書いてるんじゃないんだからもっと早く出来るでしょうに。
しばらく使ってみて、更に不思議になった。
「全部前日以前に読んだことのある記事だ」って。
これで怪しさに気づいた。記事がはてブで片っ端からホットエントリーになっていたから。


決め手になったのは、みんなが時々つぶやいてるこの疑問だ↓

 

 

違う!分析エンジンなんてものはないんだ。そもそも。
はてブユーザーの関心分野の記事しかそもそも引っかかってこない仕組みなんだ。

だから、お前が野球が好きなんてことは、Gunosyはこれっぽっちもわかっちゃいねえ。


そこら辺でバズった記事だから、誰が読んでもそこそこ面白いに決まってる。
そんな記事群からそれっぽいカテゴリに振り分けて配信しているだけだから、何も難しいアルゴリズムや解析エンジンなんてものはないんだ。そんなものは幻想だ。

「自分好みの情報を配信」とか、バカも休み休み言えという話だ。

 

  • 「Gunosy砲」というあり得ない現象

それでも建前上一人ひとりの好みに応じて記事を配信しているGunosyだが、この頃変な現象が頻繁に観測されるようになった。
それが「Gunosy砲」だ。

このブログによると、ものの数時間の間に2500人がGunosyからアクセスし、同時アクセス150人の瞬間風速もあるという。

f:id:harashimamizuki:20130418105851j:plain

いや〜Gunosyすごいね〜大きくなったね〜・・・ってちょっと待てよ。

一人ひとりの好みに応じて別々の記事を配信しているのに、どうして1つの記事に何千人もアクセスするの?

 

簡単な算数をしてみよう。
Gunosyの現在のユーザー数は公式発表で約15万人だ。デイリーのアクティブユーザー(1日にGunosyを使う人の数)は約30%だそうだ。これを事実とすると、1日に4万5000人がGunosyを使っている。そのうち、2500人が同じ記事をクリックする。つまり、その日の全ユーザーの5.55%が同じ1つの記事をわざわざ見に行っているわけだ。

ウェブマーケティングに土地勘のある人ならここで勘づくだろう、この怪しさに。

 

検索エンジンの検索順位1位のリンクのクリック率は大体約50%だ。2位は10%前後、3位は5%以下に落ちる。だから、2500人のユーザーが1つの記事を見に行くということは、母数(つまりその記事が配信された人数)が最低でも1万6650人以上※いることになる。

※クリック率50%なら、2500人×2=5000人。更にDAU30%だから、5000人×3.33=16650人。

実際はもっと低いクリック率でないと不自然だから、せいぜい10%くらいで計算すべきかもしれない。するとどうなるか。

なんと、8万3250人(ユーザーの過半数!)※に同じ記事が配信されているようだ。

※クリック率10%なら2500人×10=25000人。DAU30%だから、25000人×3.33=83250人。

 

つまり、Gunosyの50〜60%のユーザーは、自分と全く同じ記事を読んでいるわけだ。

これで「一人ひとりの好みに応じて配信してます」というのはさすがにキビシイw

多分、Gunosyはユーザーのツイッターやフェイスブックの投稿を分析して、キーワードを抽出し、そのキーワードが当てはまるカテゴリにユーザーを放り込んでいる。あとは日々のユーザーのクリックの仕方に応じて、そのカテゴリを組み替えているだけだ。

少なくとも、これくらいのことは数字で分かる。

 

しかしこんなことにも気づかずに滔々とウェブマーケ語ってる永○一石さんって人はなんだろう?

 

 

追記/

遅くに起きてうっかりブログ見てみたらこのバズ。

新ブログ引っ越していきなりだからビビってますともw

生憎これからガキを連れて家族サービス残業しなきゃならないので簡単に追記反論しておこう。

 

いい補足説明をしてくれた人がいるのでまるっと貼り付け。

 

その通り。

そして反論だが、永○さん。はじめまして、どうも。

 

 

はてなAPIならはてぶ数1でも2でも引っ張ってこられるんだよ、知らないの?
コード書く人ならAPIを見てごらんなさいよ。
APIも見ずに言いません。

あなたのことはフォローして普段から楽しくブログ読んでます。
別にネガティブな意味じゃなくて。
でもGunosyの分析はいただけないのでこの際言いました。失礼を承知で。

それと、「分析が雑」という意見だが、クリック率などは非公表なんだから仮定して計算するしかない。そのうえで最も事実に近そうな数字が検索順位のクリック数だと言っているのだ。

だからその前提で読んでください。推定としてはかなりいい線行ってるはずだけど。

それより事実に近そうなクリック率データがあれば逆に教えてほしい。それをもとにまた計算するまでだ。

 

そんじゃーね。