2014年06月23日
小説家になろうで人気が出る作品の分析
Tweet |
書籍化されてる作品とても多いのですが、一体どんな作品が人気集めるのでしょうか?
APIでメタデータを含め収集できますが、しかしAPIパラメータのstが、(1〜2000)なのでは、全部取得なんてどうやっても出来ないのでは...
いや、
useridを全部チェックすれば、 一人2000以上投稿してる人がいなければ、全部取得できるのかもしれません。
とりあえず様々な昇順降順で2000件ずつ、
途中で何の原因か分からないのですが止まってたのですが、とりあえずapiで18万件取得できました。
そして、その中には当然重複があるので、それを除いたら、
計86640件
ところで、挿絵と人気の相関調べたかったんですが、
取得したデータ中の sasie_cnt、挿絵の数は、全部が0ですよ?
さて、人気をどうやって計測したらよいのか......
多分、人気=お気に入り数 という認識でいいのでしょう。
ポイント評価、では...ポイントは1ptは低い評価なんですが、それでもたくさん貰えたら高い点数になっちゃうので...?
ところで、今、なんか急激にコンテンツが変化してる気がするので、この調査は2014年6月の瞬間値だと思います。
時間経ったら(大きく)変わりそうな気がします。
「小説家になろう」と名前出しての先行研究は、すでにいくつかあるのですが...
オンライン小説におけるキーワードの時系列傾向分析
浦川隆寛 伊東栄典 九州大学
情報処理学会研究報告 火の国情報シンポジウム2013
3月15日発表だったんですが資料は2月6日以降に作られてるみたいです...
........................
APIでメタデータを含め収集できますが、しかしAPIパラメータのstが、(1〜2000)なのでは、全部取得なんてどうやっても出来ないのでは...
いや、
useridを全部チェックすれば、 一人2000以上投稿してる人がいなければ、全部取得できるのかもしれません。
とりあえず様々な昇順降順で2000件ずつ、
途中で何の原因か分からないのですが止まってたのですが、とりあえずapiで18万件取得できました。
そして、その中には当然重複があるので、それを除いたら、
計86640件
ところで、挿絵と人気の相関調べたかったんですが、
取得したデータ中の sasie_cnt、挿絵の数は、全部が0ですよ?
さて、人気をどうやって計測したらよいのか......
多分、人気=お気に入り数 という認識でいいのでしょう。
ポイント評価、では...ポイントは1ptは低い評価なんですが、それでもたくさん貰えたら高い点数になっちゃうので...?
ところで、今、なんか急激にコンテンツが変化してる気がするので、この調査は2014年6月の瞬間値だと思います。
時間経ったら(大きく)変わりそうな気がします。
「小説家になろう」と名前出しての先行研究は、すでにいくつかあるのですが...
オンライン小説におけるキーワードの時系列傾向分析
浦川隆寛 伊東栄典 九州大学
情報処理学会研究報告 火の国情報シンポジウム2013
本研究ではキーワードの出現頻度から小説の流行について調べることを目的とする.そのため,期間毎のキーワード出現頻度をグラフで視覚化するツールを作成する......
3月15日発表だったんですが資料は2月6日以降に作られてるみたいです...
........................
5.3 傾向分析事例
以下に,調査した100単語のうち,興味深い傾向を示したものを列挙する.
5.3.1 例1:夢
多くの単語は月毎の変動が大きく全体傾向が判別しづらい.この単語では,類似語として挙げられた「死」とともに,全体的に減少傾向を示している.類似語として抽出した単語が似た増減傾向を示しているのは,その2つの関連度が大きい.
5.3.2 例2:ハーレム
例1とは逆に,検索結果の複数の単語で増加傾向が見られる.このグラフ傾向は,「ハーレム」「チート」「主人公最強」の要素を合わせ持った小説が最近流行していると判断することができる.
5.3.3 例3:ツンデレ
「○○デレ」という単語が類似語として並んで表れている.赤線の「ツンデレ」は横ばいまたは下降気味であるのに対し,「ヤンデレ」が上昇傾向を示していることから,これらの流行が取って代わる形で訪れているのではないかという予測ができる.
5.3.4 例4:海
類似語として表れた「夏」の推移が非常に特徴的で,グラフから分かるとおり夏の時期に大きく偏って出現している.他にも季節に関する要素は該当する時期に偏る傾向があり,No.97:雨の類似語として表れる「梅雨」は6月にピークを持っている.
5.3.5 例5:ゲーム
分かりやすい上昇傾向を示した単語のひとつ.類似語も含め急上昇を見せている.最近流行の単語だと推察できる.また,類似語には「RPG」「オンライン」など,ゲームのジャンルや形態を示すものが多く表れている.
さてわたくしが調べたいのは、どんな内容だったら人気が出るのか?です。
こんだけあるんだから単純に平均値計算すればよいでしょう。
これが、ジャンル別の人気平均値です。
単に、ジャンルだけ示したんではどういう作品か全然分からないのでしょうから作品例も示します。
と、言う訳で断トツでファンタジーが人気です。これは単純平均ですから、文学、ホラー、童話、詩、エッセイなんかの100倍以上のお気に入りが期待出来ます。
話数、会話率、掲載日 と 人気の重回帰
データとして数字で取れて、人気に影響がありそうな数字はこれくらいしか考え付かないですよ。
古い作品は、長く人目に晒されてるのでお気に入りに入る機会が多いというわけではないのです...
むしろ、逆です。
係数が正であるということは、古い作品より新しい方が人気出やすいという事ですよ。
会話率...会話の割合が多いほど人気出るんでしょうか
数字の上ではそういう事になっています。
しかし会話率の値域は0〜100だから、最大でも36ぐらいしか影響与えないはず...です。
一番影響与えるのは話数です。間違いなく、掲載話が多ければ多いほど人気が出ます。
お気に入りの累積数を調べると、トールヘッドなのがすぐに分かりますよ。
上位1%の小説でお気に入りの過半を占めてます。
だから人気ある人が人気を独占してます。全然ロングテールじゃないんですよ。
お気に入りの全平均は、 132.851108
何でもなくてもその程度の人気は期待できる...ということですが、しかし、お気に入り0の小説が今の10倍ぐらいだとしても期待値が10分の一になるだけなのでそんな大した問題じゃないかもしれません。
中間層がもっとたくさんあるのなら、傾向が変化すると思いますが...
小節タイトルとあらすじの形態素解析して、各単語ごとに、人気の期待値を計算しました。
こんなワンパターンでいいんでしょうか?いや、実は違いがあるんですが...
と、言う訳で、直感だけではなく、実際の数字でも、こんな小説が人気ですよ。
しかし、単一の場合です。
複合すると、増えたり減ったりすると思います。
この値から、人気が出ない言葉...人気が出ない作品がどんなのかもわかるんですが、
他にも多数、人気出ないパターンが分かったんですが、それを全部説明するとかなり長くなります。
短編もあるんですが、これ見ると、タイトルだけで、短編で人気出る作品がどういう作品なのかわかる...と、思います。
こんだけあるんだから単純に平均値計算すればよいでしょう。
これが、ジャンル別の人気平均値です。
単に、ジャンルだけ示したんではどういう作品か全然分からないのでしょうから作品例も示します。
例 | 平均 | ジャンル |
塔の陰 | 7.344962186 | 文学 |
謙虚、堅実をモットーに生きております! | 237.3069352 | 恋愛 |
腕白関白・改定版 | 59.75131768 | 歴史 |
薬屋のひとりごと | 8.674761758 | 推理 |
'無職転生 - 異世界行ったら本気だす -' | 841.8579235 | ファンタジー |
ログ・ホライズン | 70.27528345 | SF |
世界がデスゲームになったので楽しいです。 | 5.719171484 | ホラー |
攻略なんぞされてたまるか! | 40.14838179 | コメディー |
とあるおっさんのVRMMO活動記 | 82.39310345 | 冒険 |
テレポーター | 48.01717902 | 学園 |
やる気なし英雄譚 | 72.20302208 | 戦記 |
異世界育成マニュアル【魔法少女を育てよう】 | 1.788742871 | 童話 |
嘘つきの告白 | 0.489446663 | 詩 |
0から始める小説の書き方徹底講座! | 6.401506505 | エッセイ |
悪の組織の求人広告 | 15.30415782 | その他 |
と、言う訳で断トツでファンタジーが人気です。これは単純平均ですから、文学、ホラー、童話、詩、エッセイなんかの100倍以上のお気に入りが期待出来ます。
話数、会話率、掲載日 と 人気の重回帰
データとして数字で取れて、人気に影響がありそうな数字はこれくらいしか考え付かないですよ。
古い作品は、長く人目に晒されてるのでお気に入りに入る機会が多いというわけではないのです...
むしろ、逆です。
係数が正であるということは、古い作品より新しい方が人気出やすいという事ですよ。
会話率...会話の割合が多いほど人気出るんでしょうか
数字の上ではそういう事になっています。
しかし会話率の値域は0〜100だから、最大でも36ぐらいしか影響与えないはず...です。
一番影響与えるのは話数です。間違いなく、掲載話が多ければ多いほど人気が出ます。
お気に入りの累積数を調べると、トールヘッドなのがすぐに分かりますよ。
上位1%の小説でお気に入りの過半を占めてます。
だから人気ある人が人気を独占してます。全然ロングテールじゃないんですよ。
お気に入りの全平均は、 132.851108
何でもなくてもその程度の人気は期待できる...ということですが、しかし、お気に入り0の小説が今の10倍ぐらいだとしても期待値が10分の一になるだけなのでそんな大した問題じゃないかもしれません。
中間層がもっとたくさんあるのなら、傾向が変化すると思いますが...
小節タイトルとあらすじの形態素解析して、各単語ごとに、人気の期待値を計算しました。
こんなワンパターンでいいんでしょうか?いや、実は違いがあるんですが...
赤ん坊 | 2942.56701 |
転移 | 2178 |
テンプ | 2003.133333 |
スキル | 1909.088 |
OR | 1888.533333 |
伴い | 1883.910112 |
チート | 1779.881657 |
Online | 1766.006173 |
迷宮 | 1734.657778 |
召喚 | 1718.11054 |
前世 | 1712.315464 |
エルフ | 1613.925 |
魔力 | 1594.580153 |
職 | 1581.536082 |
奴隷 | 1563.111888 |
ハーレム | 1519.676768 |
知識 | 1503.793651 |
身分 | 1494.121212 |
転生 | 1491.909398 |
ギルド | 1482.893617 |
悪役 | 1433.821429 |
プレイ | 1431.420063 |
気が付い | 1428 |
挿絵 | 1395.554348 |
ポリス | 1373.113636 |
ご都合主義 | 1330.511111 |
貴族 | 1321.363158 |
レベル | 1290.488479 |
PG | 1282.968553 |
プレイヤー | 1272.654891 |
アイテム | 1271.390805 |
ジョン | 1252.12 |
サービス | 1250.362069 |
PV | 1237.617978 |
辺境 | 1229.939597 |
飛ばさ | 1226.227368 |
生まれ変わっ | 1221.672222 |
公爵 | 1214.621622 |
ライフ | 1196.207048 |
トリップ | 1181.854369 |
魔物 | 1154.107143 |
ログアウト | 1140.664179 |
生き抜く | 1139.727273 |
満喫 | 1138.69281 |
無双 | 1138.397887 |
ログイン | 1113.586207 |
伯爵 | 1109.10687 |
回避 | 1105.032468 |
異 | 1104.789157 |
駆使 | 1093.470899 |
トラック | 1088.271845 |
脇役 | 1087.457364 |
モンスター | 1081.200743 |
突破 | 1061.134228 |
デスゲーム | 1057.929648 |
と、言う訳で、直感だけではなく、実際の数字でも、こんな小説が人気ですよ。
しかし、単一の場合です。
複合すると、増えたり減ったりすると思います。
この値から、人気が出ない言葉...人気が出ない作品がどんなのかもわかるんですが、
七不思議 | 11.38202247 |
容疑 | 10.89423077 |
不気味 | 10.85925926 |
刑事 | 10.50980392 |
文学 | 10.50769231 |
アナタ | 10.21296296 |
工場 | 9.852272727 |
星空 | 9.507575758 |
バンド | 8.864864865 |
犯人 | 8.232993197 |
怪盗 | 8.010526316 |
心霊 | 7.950413223 |
怪談 | 7.308571429 |
探偵 | 7.103481625 |
ミステリー | 6.917184265 |
密室 | 6.875 |
猟奇 | 6.673913043 |
思想 | 6.618556701 |
事務所 | 4.929078014 |
共感 | 4.59047619 |
掌編 | 3.702020202 |
衝動 | 3.627659574 |
苦しみ | 3.022222222 |
ノンフィクション | 2.920212766 |
時計 | 2.536231884 |
ショート | 2.428870293 |
詩 | 2.396072797 |
サンタ | 2.090909091 |
ショート | 1.768878719 |
即興 | 1.626984127 |
哲学 | 1.547169811 |
実話 | 1.196296296 |
詩集 | 1.105919003 |
ポエム | 1.055555556 |
歌詞 | 0.978571429 |
他にも多数、人気出ないパターンが分かったんですが、それを全部説明するとかなり長くなります。
短編もあるんですが、これ見ると、タイトルだけで、短編で人気出る作品がどういう作品なのかわかる...と、思います。
会話 | 掲載日 | お気に入り | |
その女、悪女です! いいえ、それは濡れ衣です。 | 35 | 2013/8/29 12:52 | 2449 |
猫と竜 | 3 | 2013/9/6 13:34 | 1948 |
死が二人を分かつとも | 23 | 2014/4/20 0:36 | 1665 |
ROBOT HEART 【1】 | 34 | 2013/6/2 19:00 | 1538 |
乙女ゲーの悪役(端役)に転生した少女の場合 | 13 | 2013/9/29 14:17 | 1516 |
異世界の王子は野ばらの毒がお好き | 61 | 2013/1/10 2:15 | 1366 |
竜の花嫁 | 32 | 2014/1/24 17:21 | 1172 |
旦那様って誰のことですか!? | 50 | 2012/11/26 17:54 | 1136 |
まおうさまのははうえ | 38 | 2012/6/29 4:20 | 1096 |
君の膵臓を食べたい | 48 | 2014/1/25 4:05 | 1088 |
そして私は○○○○を手に入れた | 37 | 2014/5/9 15:46 | 1014 |
天井裏からどうぞよろしく | 39 | 2012/8/31 14:02 | 993 |
氷妃を殺した暗殺者 | 37 | 2013/7/8 23:33 | 925 |
王子様は来ない | 44 | 2013/9/14 2:18 | 893 |
騎士様と私 | 24 | 2012/1/9 0:10 | 888 |
親戚の小学生の算数の文章題がおかしい | 43 | 2014/5/31 21:37 | 798 |