秋葉原IT戦略研究所
野田純一
秋葉原IT戦略研究所のご紹介
形態
アニメに関するデータ解析が主体の
同人サークル 兼 ITコミュニティ
メンバー
現在11名
活動
オープンソースカンファレンス出展、コミケC89出展、デブサミ等のイベ
ントで発表
合計7回
自己紹介
所属
GMOインターネット
業務分野
ビッグデータ、機械学習
アドテク
コミュニティコンセプト
オタク業界のIT化促進
ビッグデータからアニメに関するトピックを解析する際に必要と
なる今期アニメ作品のマスターが取得できるAPIの開発。今まで
の手作業を自動化。
オタク産業のIT化は黒船企業に勝ちたい
「僕(日本人)...
目的:これのアニメ版が作りたい
作ったシステム
http://tv-anime.biz/
ご注文は何のアニメですか?
今回のシステム「tippy」
Anime APIの必要性について
Wikipediaやまとめサイトから今期のアニメのタイトル名
、タイトル略称、ハッシュタグなどを取得
今期の人気アニメを解析、統計、レポート出力
5時間
Anime APIの必要性について
Anime API で今期のアニメのタイトル名、タイト
ル略称、ハッシュタグなどを取得
今期の人気アニメを解析、統計、レポート出力
10秒
• HadoopのMapReduceとは別アプローチ(DAG)での並列分
散集計処理を行う
• インメモリー処理
• Hadoopエコシステムの一部として扱われるがHadoopと直
接的な関係はない
• APIを利用できる言語はScala, J...
• 機械学習用のSparkライブラリ
• 協調フィルタリングやAssociation Ruleなどが簡単に使える
ようになっている。
• Sparkクラスタを構築し実行することでビッグデータに対し
て機械学習演算を処理できるようになる。
Spa...
•TwitterのStreamingAPIで今期アニメ作品43作品に
関するワードを拾ってくる。
•とりあえずCSVに記録
•1ヶ月半で4G、1500万レコード程度
status.getId()
status.getUser().getScre...
UserName Tweet
tanaka おそ松さん面白い
mika ガンダム面白い
tanaka おそ松最高
daken ガンダム面白い
mika ラブライブ見る
UserID Product Rate
1 1 2
2 2 1
2 3 1
...
80万Twitterユーザー x 43 (2015年冬期アニメ作品数)
3440万レコードが推薦データとしてMySQLに格納
されている
MLlibで処理した結果
UserID ProductID Rate
354796 242 1.83228...
実演
実演 補足
検証結果
• とらのあなは「うたわれるもの」を作っているアクアプラスと業務
提携しているので発言数が多くなっている。▶それなりの正しい推薦
であることが確認できた。
IT系同人誌売ってます
Upcoming SlideShare
Loading in …5
×

機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム

111
-1

Published on

オープンソースカンファレンス2016 Tokyo/Springのライトニングトークの内容です

Published in: Data & Analytics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
111
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム

  1. 1. 秋葉原IT戦略研究所 野田純一
  2. 2. 秋葉原IT戦略研究所のご紹介 形態 アニメに関するデータ解析が主体の 同人サークル 兼 ITコミュニティ メンバー 現在11名 活動 オープンソースカンファレンス出展、コミケC89出展、デブサミ等のイベ ントで発表 合計7回
  3. 3. 自己紹介 所属 GMOインターネット 業務分野 ビッグデータ、機械学習 アドテク
  4. 4. コミュニティコンセプト オタク業界のIT化促進 ビッグデータからアニメに関するトピックを解析する際に必要と なる今期アニメ作品のマスターが取得できるAPIの開発。今まで の手作業を自動化。 オタク産業のIT化は黒船企業に勝ちたい 「僕(日本人)が一番アニメをうまく扱えるんだ!!」 IT界のトレンド技術のアニメへの適用 ビッグデータ、機械学習、AIを使った解析
  5. 5. 目的:これのアニメ版が作りたい
  6. 6. 作ったシステム http://tv-anime.biz/
  7. 7. ご注文は何のアニメですか?
  8. 8. 今回のシステム「tippy」
  9. 9. Anime APIの必要性について Wikipediaやまとめサイトから今期のアニメのタイトル名 、タイトル略称、ハッシュタグなどを取得 今期の人気アニメを解析、統計、レポート出力 5時間
  10. 10. Anime APIの必要性について Anime API で今期のアニメのタイトル名、タイト ル略称、ハッシュタグなどを取得 今期の人気アニメを解析、統計、レポート出力 10秒
  11. 11. • HadoopのMapReduceとは別アプローチ(DAG)での並列分 散集計処理を行う • インメモリー処理 • Hadoopエコシステムの一部として扱われるがHadoopと直 接的な関係はない • APIを利用できる言語はScala, Java, Python Sparkについて
  12. 12. • 機械学習用のSparkライブラリ • 協調フィルタリングやAssociation Ruleなどが簡単に使える ようになっている。 • Sparkクラスタを構築し実行することでビッグデータに対し て機械学習演算を処理できるようになる。 Spark MLlibについて
  13. 13. •TwitterのStreamingAPIで今期アニメ作品43作品に 関するワードを拾ってくる。 •とりあえずCSVに記録 •1ヶ月半で4G、1500万レコード程度 status.getId() status.getUser().getScreenName() status.getText() status.getSource() status.getRetweetCount() status.getFavoriteCount() status.getCreatedAt() 記録した要素 Twitterからデータを収集
  14. 14. UserName Tweet tanaka おそ松さん面白い mika ガンダム面白い tanaka おそ松最高 daken ガンダム面白い mika ラブライブ見る UserID Product Rate 1 1 2 2 2 1 2 3 1 3 2 1 • 協調フィルタリングに読み込ませるため右表のフォーマットに BigQueryで加工する。(AmazonMLもAzureMLなどもこの形式) • SparkMLlibがUserIDがIntでないといけないという制限があるため TwitterIDは内部的にシーケンスな番号を付ける。 データの加工
  15. 15. 80万Twitterユーザー x 43 (2015年冬期アニメ作品数) 3440万レコードが推薦データとしてMySQLに格納 されている MLlibで処理した結果 UserID ProductID Rate 354796 242 1.8322849817902473 354796 243 -2.5666437672644378 354796 244 0.385125554296764 354796 245 0.9550722901486512
  16. 16. 実演
  17. 17. 実演 補足
  18. 18. 検証結果 • とらのあなは「うたわれるもの」を作っているアクアプラスと業務 提携しているので発言数が多くなっている。▶それなりの正しい推薦 であることが確認できた。
  19. 19. IT系同人誌売ってます

×