映画の辛口レビューと感想を機械学習を使って、はてなブログから集めてウェブサイトにした。名前はホット チリ レビューズ。
現在は約3万件のレビュー記事と約6千本の映画が収録されている。最終的には他のブログプラットフォームにも対応して、機械学習の精度を高めて、記事を集めまくって、世界一の映画ブログ総合サイトにするつもり。
映画の感想と辛口レビューをブログから集計
ホット チリ レビューズ
映画のレビュー
わりと映画のレビュー好きである。単なる映画好きとはちょっと異なる。あくまで「映画のレビュー」好き。
映画のレビューはそれだけで十分に楽しめるコンテンツになっている。必ずしも「レビューを読むこと」と「映画を観ること」がリンクしている訳では無い。ただウェブサイトを巡回してひたすら映画レビューを読んでいるだけで楽しくて、きっと同様の感覚を持つ人も居ると思う。
同じひとつの映画を軸として、いろんなブロガーがそれぞれの視点で書いたレビューを読むと多角的に映画が理解できてくる。「おお、あの映画にそんな捉え方があったのか」という気付きがあったり、「これ書いた奴、映画が分かってねーなー」とツッコんだり。
そういう楽しみ方はブログに掲載されたレビューが最も適している。ツイッターのつぶやきで「スターウォーズすげーっす」と140文字以内のひとこと感想を読んでも何も分からない。アマゾンやヤフー映画のレビュー欄ではフォーマットが規定されていて、かつ文章も短く、読み応えが無い。
その点ブログは多様なフォーマットで各ブロガーが思う存分に映画レビューを書いている。中にはプロの映画評論家ですらできないような評論を個人ブログで発信されてたりする。
本当に自分に合った映画ブロガーとの出逢いはその後の映画人生を何倍も充実させてくれるのだ。
ただそんな「映画のレビュー好き」には常に問題があって、それは「どうやって自分に合った映画ブロガーを見つけるのか?」と。これってググってもなかなか出てこない。当然ながら検索キーワードに「私の感性に合う映画ブロガー」と入れても意味が無い。
そこでホット チリ レビューズではブロガーごとに書かれたレビューを数値解析してサイトに表示させた。
そうすることで「アクション映画の感想を書かせたらピカイチのブロガーに出逢いたい」や「恋愛モノ映画レビューの第一人者は誰?」といったニーズに応えることができる。
「アクション映画のランキング」というのはどこの映画サイトでも手に入る。
でも「アクション映画のブロガーランキング」というのはおそらくホット チリ レビューズでしか手に入らない。
ブロガー分析
ブロガーごとに映画レビューを数値化分析した。映画のカテゴリーとリンクさせているのでどの映画分野に強いブロガーなのかがチャートでひとめで分かる。例えばこんな感じ。

これはきっとブログ作者さんにとっても参考になるのでは、と思っている。自分の書いたレビューの映画をカテゴリー分けして、数値集計するなんて面倒なこと誰もしないだろうし。
本サイトにおいて映画ブロガーさん達の支持が無ければ成り立たないので、とくかくブロガーに喜んでもらえるサイト作りを目指した。
最終的には「映画の感想をブログに書いたらホット チリ レビューズへの登録」をデファクトスタンダードにしたい。
機械学習
ウェブスクレイピング + 機械学習 + ビッグデータ = なんかスゲーもの
3つの要素を足すと個人が立ち上げるウェブサイトであっても、すごいことができるはずという確信がある。
このウェブサイト構築で最も困難だったことは「ネット上にある様々な映画レビュー記事をその対象の映画にマッチングさせること」だった。最初はカンタンに考えていて、これがこんなに難しいとは思っていなかった。いろいろやった結論としては「機械学習以外に方法は無い」ということ。
ブログに書かれた映画のタイトルというのは統一性がなく、バラバラなのだ。以下は全て同じ映画を示していることになる。
- スターウォーズ フォースの覚醒
- SW フォースの覚醒
- スターウォーズ エピソード7
- スターウォーズ EP7
- スターウォーズ EP7 フォースの覚醒
- スターウォーズ7
- スターウォーズ The Force Awakens
- Star Wars: Episode VII The Force Awakens
私が他人のブログに注文つけるのもおかしいが、もうちょっと統一してくれたらなー、と。
人間の目で見て確認するのもいいが、何万件もある記事と映画は全部確認できないし、そんな方法では絶対にスケールしない。
そこでAIを使ってこんなことをした。
> classifier.classify "【ネタバレあり】スターウォーズ エピソード8 最後のジェダイ 感想文。早速観てきた!” => "スターウォーズ/最後のジェダイ" > classifier.classify “宇宙好きのパパの影響を受けた2歳の娘と『スターウォーズ フォースの覚醒』を観だけど、娘はアンパンマンの方がいいみたい” => "スターウォーズ/フォースの覚醒"
この精度にまだちょっと満足できていない。とくにAIにシリーズものの映画の違いを分かってもらうところで苦労している。まずはRubyのclassifier-rebornを使って実装した。つまりナイーブベイズ分類器を使った訳だが、どうにも精度が上がらないので、今これをPythonのDoc2Vecに代えてコードを書き直しているところ。
ここの精度が十分に上がればサイト規模をいっきに拡大できるはず。もしこの辺りの技術に詳しい方でアドバイスがあればぜひコメントください。
トップ映画ブロガー200
順位は独自集計した数値を元にして決めている。基本は人に支持されて、いい映画のレビュー記事をたくさん書かれているブロガーほど高い数値がつく。アルゴリズムの改良を続けているので、しばらくは変動が大きいですが、まーそんなもんとお考えください。
あと「オレの映画ブログ記事のリンクも貼れ」とかのご依頼があればぜひご連絡ください。
トップの映画ブロガー200のリスト
というわけでホット チリ レビューズです。なんでも感想とかコメント、批評いただければありがたいです。