2014年06月23日

小説家になろうで人気が出る作品の分析

このエントリーをはてなブックマークに追加
書籍化されてる作品とても多いのですが、一体どんな作品が人気集めるのでしょうか?

APIでメタデータを含め収集できますが、しかしAPIパラメータのstが、(1〜2000)なのでは、全部取得なんてどうやっても出来ないのでは...

いや、
useridを全部チェックすれば、 一人2000以上投稿してる人がいなければ、全部取得できるのかもしれません。

とりあえず様々な昇順降順で2000件ずつ、
途中で何の原因か分からないのですが止まってたのですが、とりあえずapiで18万件取得できました。

そして、その中には当然重複があるので、それを除いたら、
計86640件

ところで、挿絵と人気の相関調べたかったんですが、
取得したデータ中の sasie_cnt、挿絵の数は、全部が0ですよ?

さて、人気をどうやって計測したらよいのか......
多分、人気=お気に入り数 という認識でいいのでしょう。
ポイント評価、では...ポイントは1ptは低い評価なんですが、それでもたくさん貰えたら高い点数になっちゃうので...?

ところで、今、なんか急激にコンテンツが変化してる気がするので、この調査は2014年6月の瞬間値だと思います。
時間経ったら(大きく)変わりそうな気がします。





「小説家になろう」と名前出しての先行研究は、すでにいくつかあるのですが...

オンライン小説におけるキーワードの時系列傾向分析
浦川隆寛 伊東栄典 九州大学
情報処理学会研究報告 火の国情報シンポジウム2013
本研究ではキーワードの出現頻度から小説の流行について調べることを目的とする.そのため,期間毎のキーワード出現頻度をグラフで視覚化するツールを作成する......

3月15日発表だったんですが資料は2月6日以降に作られてるみたいです...
syosetu3

........................
5.3 傾向分析事例
以下に,調査した100単語のうち,興味深い傾向を示したものを列挙する.


5.3.1 例1:夢
多くの単語は月毎の変動が大きく全体傾向が判別しづらい.この単語では,類似語として挙げられた「死」とともに,全体的に減少傾向を示している.類似語として抽出した単語が似た増減傾向を示しているのは,その2つの関連度が大きい.

5.3.2 例2:ハーレム
例1とは逆に,検索結果の複数の単語で増加傾向が見られる.このグラフ傾向は,「ハーレム」「チート」「主人公最強」の要素を合わせ持った小説が最近流行していると判断することができる.


5.3.3 例3:ツンデレ
「○○デレ」という単語が類似語として並んで表れている.赤線の「ツンデレ」は横ばいまたは下降気味であるのに対し,「ヤンデレ」が上昇傾向を示していることから,これらの流行が取って代わる形で訪れているのではないかという予測ができる.


5.3.4 例4:海
類似語として表れた「夏」の推移が非常に特徴的で,グラフから分かるとおり夏の時期に大きく偏って出現している.他にも季節に関する要素は該当する時期に偏る傾向があり,No.97:雨の類似語として表れる「梅雨」は6月にピークを持っている.


5.3.5 例5:ゲーム
分かりやすい上昇傾向を示した単語のひとつ.類似語も含め急上昇を見せている.最近流行の単語だと推察できる.また,類似語には「RPG」「オンライン」など,ゲームのジャンルや形態を示すものが多く表れている.


さてわたくしが調べたいのは、どんな内容だったら人気が出るのか?です。


こんだけあるんだから単純に平均値計算すればよいでしょう。
これが、ジャンル別の人気平均値です。
単に、ジャンルだけ示したんではどういう作品か全然分からないのでしょうから作品例も示します。
平均 ジャンル
塔の陰 7.344962186 文学
謙虚、堅実をモットーに生きております! 237.3069352 恋愛
腕白関白・改定版 59.75131768 歴史
薬屋のひとりごと 8.674761758 推理
'無職転生 - 異世界行ったら本気だす -' 841.8579235 ファンタジー
ログ・ホライズン 70.27528345 SF
世界がデスゲームになったので楽しいです。 5.719171484 ホラー
攻略なんぞされてたまるか! 40.14838179 コメディー
とあるおっさんのVRMMO活動記 82.39310345 冒険
テレポーター 48.01717902 学園
やる気なし英雄譚 72.20302208 戦記
異世界育成マニュアル【魔法少女を育てよう】 1.788742871 童話
嘘つきの告白 0.489446663
0から始める小説の書き方徹底講座! 6.401506505 エッセイ
悪の組織の求人広告 15.30415782 その他

と、言う訳で断トツでファンタジーが人気です。これは単純平均ですから、文学、ホラー、童話、詩、エッセイなんかの100倍以上のお気に入りが期待出来ます。





話数、会話率、掲載日 と 人気の重回帰

データとして数字で取れて、人気に影響がありそうな数字はこれくらいしか考え付かないですよ。
syosetu1

古い作品は、長く人目に晒されてるのでお気に入りに入る機会が多いというわけではないのです...
むしろ、逆です。
係数が正であるということは、古い作品より新しい方が人気出やすいという事ですよ。

会話率...会話の割合が多いほど人気出るんでしょうか
数字の上ではそういう事になっています。
しかし会話率の値域は0〜100だから、最大でも36ぐらいしか影響与えないはず...です。

一番影響与えるのは話数です。間違いなく、掲載話が多ければ多いほど人気が出ます


お気に入りの累積数を調べると、トールヘッドなのがすぐに分かりますよ。
syosetu2

上位1%の小説でお気に入りの過半を占めてます。
だから人気ある人が人気を独占してます。全然ロングテールじゃないんですよ


お気に入りの全平均は、 132.851108
何でもなくてもその程度の人気は期待できる...ということですが、しかし、お気に入り0の小説が今の10倍ぐらいだとしても期待値が10分の一になるだけなのでそんな大した問題じゃないかもしれません。
中間層がもっとたくさんあるのなら、傾向が変化すると思いますが...










小節タイトルとあらすじの形態素解析して、各単語ごとに、人気の期待値を計算しました。

こんなワンパターンでいいんでしょうか?いや、実は違いがあるんですが...
赤ん坊 2942.56701
転移 2178
テンプ 2003.133333
スキル 1909.088
OR 1888.533333
伴い 1883.910112
チート 1779.881657
Online 1766.006173
迷宮 1734.657778
召喚 1718.11054
前世 1712.315464
エルフ 1613.925
魔力 1594.580153
1581.536082
奴隷 1563.111888
ハーレム 1519.676768
知識 1503.793651
身分 1494.121212
転生 1491.909398
ギルド 1482.893617
悪役 1433.821429
プレイ 1431.420063
気が付い 1428
挿絵 1395.554348
ポリス 1373.113636
ご都合主義 1330.511111
貴族 1321.363158
レベル 1290.488479
PG 1282.968553
プレイヤー 1272.654891
アイテム 1271.390805
ジョン 1252.12
サービス 1250.362069
PV 1237.617978
辺境 1229.939597
飛ばさ 1226.227368
生まれ変わっ 1221.672222
公爵 1214.621622
ライフ 1196.207048
トリップ 1181.854369
魔物 1154.107143
ログアウト 1140.664179
生き抜く 1139.727273
満喫 1138.69281
無双 1138.397887
ログイン 1113.586207
伯爵 1109.10687
回避 1105.032468
1104.789157
駆使 1093.470899
トラック 1088.271845
脇役 1087.457364
モンスター 1081.200743
突破 1061.134228
デスゲーム 1057.929648

と、言う訳で、直感だけではなく、実際の数字でも、こんな小説が人気ですよ。


しかし、単一の場合です。
複合すると、増えたり減ったりすると思います。



この値から、人気が出ない言葉...人気が出ない作品がどんなのかもわかるんですが、
七不思議 11.38202247
容疑 10.89423077
不気味 10.85925926
刑事 10.50980392
文学 10.50769231
アナタ 10.21296296
工場 9.852272727
星空 9.507575758
バンド 8.864864865
犯人 8.232993197
怪盗 8.010526316
心霊 7.950413223
怪談 7.308571429
探偵 7.103481625
ミステリー 6.917184265
密室 6.875
猟奇 6.673913043
思想 6.618556701
事務所 4.929078014
共感 4.59047619
掌編 3.702020202
衝動 3.627659574
苦しみ 3.022222222
ノンフィクション 2.920212766
時計 2.536231884
ショート 2.428870293
2.396072797
サンタ 2.090909091
ショート 1.768878719
即興 1.626984127
哲学 1.547169811
実話 1.196296296
詩集 1.105919003
ポエム 1.055555556
歌詞 0.978571429

他にも多数、人気出ないパターンが分かったんですが、それを全部説明するとかなり長くなります。



短編もあるんですが、これ見ると、タイトルだけで、短編で人気出る作品がどういう作品なのかわかる...と、思います。
会話 掲載日 お気に入り
その女、悪女です! いいえ、それは濡れ衣です。 35 2013/8/29 12:52 2449
猫と竜 3 2013/9/6 13:34 1948
死が二人を分かつとも 23 2014/4/20 0:36 1665
ROBOT HEART 【1】 34 2013/6/2 19:00 1538
乙女ゲーの悪役(端役)に転生した少女の場合 13 2013/9/29 14:17 1516
異世界の王子は野ばらの毒がお好き 61 2013/1/10 2:15 1366
竜の花嫁 32 2014/1/24 17:21 1172
旦那様って誰のことですか!? 50 2012/11/26 17:54 1136
まおうさまのははうえ 38 2012/6/29 4:20 1096
君の膵臓を食べたい 48 2014/1/25 4:05 1088
そして私は○○○○を手に入れた 37 2014/5/9 15:46 1014
天井裏からどうぞよろしく 39 2012/8/31 14:02 993
氷妃を殺した暗殺者 37 2013/7/8 23:33 925
王子様は来ない 44 2013/9/14 2:18 893
騎士様と私 24 2012/1/9 0:10 888
親戚の小学生の算数の文章題がおかしい 43 2014/5/31 21:37 798






tak_tak0 at 04:43コメント(1)トラックバック(0)研究   この記事をクリップ!

トラックバックURL

コメント一覧

1. Posted by 津田彷徨   2014年06月23日 13:56
5 分析お疲れ様です。
これまで体感的に感じていたことだったのですが、このようにデータを出して頂けて、喉の奥に刺さった小骨がとれた気がします。
非常に示唆に富む記事をありがとうございました。

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
adsense
Categories
あわせて読みたい
にほんブログ村 科学ブログへ
にほんブログ村

amazon
Profile
Archives
gremz
blogchart
QRコード
QRコード
Recent Comments
  • ライブドアブログ