リクルート式
自然言語処理技術の適応事例紹介
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ2グループ
池田 裕一
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属
氏名
自己紹介
RTC ITソリューション統括部
ビッグデータ2G
池田 裕一
東京...
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本日覚えて帰って頂きたい事
 word2vecのレコメンドへの活用
 doc2vecの文書要約への活用
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2
3
4
word2vecを使ったレコメンドシステム
doc2vecを使った文書要約
リクルートについて
最...
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートについて
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
Matching
Business
HR
Bridal
Group
Buying
Us...
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」 をサポートするような情報サービスを展開
Life event area Lifes...
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートテクノロジーズの立ち位置
Infrastructure
Large project
promotions...
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最近のデータ活用状況紹介
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番165台/開発24台 1342.2TB
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るHadoopの使われ方
28,344
1038万
1日あたりの全JOBの数
1日あたりの全Hbaseク...
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 240
13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecを使ったレコメンドシステム
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
 各単語を表現するベクトルを学習
 単語から文書中でその単語の前後に現れる単語を予測で...
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
While expanding its
channel for
distribution
...
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仮説 〜 word2vecをレコメンドに使う着眼点
アイテムベクトルの近さがアイテムの類似度として見なせるのでは...
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドに適したword2vecのインプットデータとは
インプットデータとしてユーザーアクションログを使用する...
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
文章 文章
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
文章 文章
単語
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アクションログを使った時の文章と単語の作り方
User-1 :
User-2 :
User-3 :
時系列
it...
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アクションログを使った時の文章と単語の作り方
1ユーザーのアクション履歴を1文章、アイテムを単語、と置き換える
...
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
user1 item-A ite...
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
use...
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
cos...
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
ite...
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算...
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
ite...
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D...
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D...
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D...
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
word2vecを元に作られたベクトルデータを使ってレコメンドリ...
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験① 〜 オフラインテスト
従来のレコメンドエンジンと比較して、効果が約1.6倍高い事が分かった
0
0....
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験② 〜 ABテスト
サービスY
CVRが 156% 改善
3.57% ⇒ 9.15%
サービスX
CVR...
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 仮説
ベクトルを足し合わせれば、志向ベクトルを作れる!?
ベクトル
ベクトル...
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item...
39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item...
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item...
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item...
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザーがアクションしたアイテムの合成ベクトルを志向ベクトル...
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 効果検証
ベクトルを足し合わせる事によってユーザーの志向を捉える事が出来た
...
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンへの実装 〜 Hadoop活用
Hadoop
レコメンド生成
バッチ
ユーザー
行動ログ
集計...
45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ユーザー
Web
HBase
レコメンドテーブルの
参照API
Hadoop
行動ログ
集計バッチ
検索API
...
46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ここまでのまとめ
• ユーザーのアクションログをword2vecのインプットに使用し、ア
イテムをベクトル化して...
47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
doc2vecを使った文書要約
48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
doc2vecとは
文章をベクトル化する
1. I am a cat.
2. As yet I have no ...
49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仮説 〜 doc2vecを文書要約に使う着眼点
一番大きな領域を作る文章ベクトルを取れば、文書のまとめが作れる!...
50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章1...
53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章1...
54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章1...
55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
ちなみに試合の内容は…
・4番の中村選手が欠場
・先発の前...
56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
結果
前田健太はもう決勝投げないだろうな
今日7回まで行か...
57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
特定の偏ったコメントではなく、満遍なくコメントが拾う事が可...
58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 口コミのまとめ
MROC(Marketing Research Online Commu...
59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 口コミのまとめ
アットホームな
式にしたい
リゾート挙式が
したい
極力シンプルに
した...
60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
①
既存の口コミで領域を
作成
62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
①
既存の口コミで領域を
作成
63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
① ②
既存の口コミで領域を
作成
新規の口コミをプロット
64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
新規の口コミが「新しい内容を含むかどうか」の判別を行う
① ② ③
...
65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめ
66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本日のまとめ
• ユーザーのアクションログをword2vecのインプットに使用し、ア
イテムをベクトル化している...
67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
今後の展望
リアルタイムでのユー
ザー志向分析
グラフ分析及び
グラフDBの導入
A
B
C
D
E
w(t)
...
68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビジネスを踏まえて
泥臭くかつアグレッシブに
分析・エンジニアリングが
できる方。
ご連絡ください。
戦友をさが...
ご清聴ありがとうございました
Upcoming SlideShare
Loading in...5
×

リクルート式 自然言語処理技術の適応事例紹介

337
-1

Published on

2015/11/20 数理システムユーザーコンファレンス 2015での、池田の講演資料になります

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
337
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

リクルート式 自然言語処理技術の適応事例紹介

  1. 1. リクルート式 自然言語処理技術の適応事例紹介 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータ2グループ 池田 裕一
  2. 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 自己紹介 RTC ITソリューション統括部 ビッグデータ2G 池田 裕一 東京大学大学院工学系研究科 精密機械工学専攻 社会人5年目。 某大手メーカー系SIerで3年間、Java・C++を使った位 置情報サービスの開発やAndroidアプリの開発に従事。 2014年4月からリクルートテクノロジーズ入社。 レコメンド施策開発のディレクション、自然言語処理やグラ フ解析の技術開発に従事。 テニス ゴルフ 旅行 カメラ
  3. 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本日覚えて帰って頂きたい事  word2vecのレコメンドへの活用  doc2vecの文書要約への活用
  4. 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 3 4 word2vecを使ったレコメンドシステム doc2vecを使った文書要約 リクルートについて 最近のデータ活用状況紹介 アジェンダ 5 まとめ
  5. 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートについて
  6. 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  7. 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」 をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  8. 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートテクノロジーズの立ち位置 Infrastructure Large project promotions UI design/SEO Big Data Department Technology R&D IT Promotion Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Operation Service
  9. 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最近のデータ活用状況紹介
  10. 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1342.2TB
  11. 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るHadoopの使われ方 28,344 1038万 1日あたりの全JOBの数 1日あたりの全Hbaseクエリの数
  12. 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 240
  13. 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecを使ったレコメンドシステム
  14. 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは  各単語を表現するベクトルを学習  単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習  単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率 を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとし て用いる w(t) w(t-1) w(t+1) w(t+2) w(t-2) INPUT PROJECTION OUTPUT INPUT: 単語の1-of-k表現 PROJECTION: 単語 線形変換 階層的 soft-max OUTPUT: 前後の単語の出現確率 𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡)) 目的関数
  15. 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは While expanding its channel for distribution information from paper publication to the net and mobile, the company has been pushing for a shift of their revenue from … … … while(0.1, 0.4, 0.3, 0.7, …) expanding(0.2, 0.5, 0.7, 0.7, …) its(0.1, 0.1, 0.9, 0.6, …) channel(0.6, 0.4, 0.9, 0.5, …) for(0.5, 0.8, 0.2, 0.1, …) distribution(0.8, 0.4, 0.1, 0.2, …) information(0.3, 0.7, 0.3, 0.6, …) … … … … 文書データ ベクトルデータ word2vec 文書データを元に単語毎のベクトルデータを生成する
  16. 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仮説 〜 word2vecをレコメンドに使う着眼点 アイテムベクトルの近さがアイテムの類似度として見なせるのではないか? 精度 単語間の文脈の純度を高めれば、類似度の 精度が高まるのでは? ベクトル レコメンドしたいアイテムをベクトル化して、類 似度を求められるのでは?
  17. 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドに適したword2vecのインプットデータとは インプットデータとしてユーザーアクションログを使用する wikipediaなどの テキストデータ サービスユーザーの アクションログデータ  ノイズが混じる  必要なアイテム全てを網羅できない user1 time1 ~~~~~~ user2 time2 ~~~~~~ user3 time3 ~~~~~~ … … …  アイテムの関係性を内包する  必要なアイテム全てを網羅できる
  18. 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name.
  19. 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name. 文章 文章
  20. 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name. 文章 文章 単語
  21. 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アクションログを使った時の文章と単語の作り方 User-1 : User-2 : User-3 : 時系列 item-A item-B item-C item-D item-E … item-V item-W item-X item-Y item-Z … item-O item-P item-Q item-R item-S … ユーザー毎のアイテムに対するアクションログ … 文章 単語
  22. 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アクションログを使った時の文章と単語の作り方 1ユーザーのアクション履歴を1文章、アイテムを単語、と置き換える User-1 : User-2 : User-3 : 時系列 item-A item-B item-C item-D item-E … item-V item-W item-X item-Y item-Z … item-O item-P item-Q item-R item-S … ユーザー毎のアイテムに対するアクションログ …
  23. 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … …
  24. 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … …
  25. 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … …
  26. 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … …
  27. 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出 アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … …
  28. 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … … アイテム間の類似度の計算は億オーダの回 数必要になるため、分散処理している word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出
  29. 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー
  30. 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ユーザーが最直近でア クションしたアイテムを 10件抽出
  31. 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M item-R item-G item-F item-W item-Z
  32. 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ③ ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 リストを作成 (重複したアイテムを 除く) item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M レコメンド item-R item-G item-F item-W item-Z
  33. 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 word2vecを元に作られたベクトルデータを使ってレコメンドリストを作成 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ③ ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 リストを作成 (重複したアイテムを 除く) item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M レコメンド item-R item-G item-F item-W item-Z
  34. 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験① 〜 オフラインテスト 従来のレコメンドエンジンと比較して、効果が約1.6倍高い事が分かった 0 0.5 1 1.5 2 2.5 1 2 3 4 5 6 7 8 9 10 11 12 従来ロジックとword2vecによるKPIの比較 (従来ロジックを1とした時の比較) 系列1 系列2 概要 過去のユーザログデータを用いてバックミラー分析を行い、従来ロジックとword2vec ロジックのレコメンド精度の比較を行う
  35. 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験② 〜 ABテスト サービスY CVRが 156% 改善 3.57% ⇒ 9.15% サービスX CVRが 31% 改善 46.59%⇒ 61.13% 概要 オンラインで、ユーザーを2つのグループに分け、従来ロジックとword2vecロジックの レコメンドリストを提示し、CVRの違いを調査する オンラインでもword2vecロジックによるレコメンドの方が効果が高い
  36. 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 仮説 ベクトルを足し合わせれば、志向ベクトルを作れる!? ベクトル ベクトルを足し合わせると、ユーザーの志向を 捉える事が出来るのではないか? item-A item-B User-Vec item-D item-C
  37. 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー
  38. 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ユーザーが 最直近でア クションした アイテムを 10件抽出
  39. 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 Int-Vec
  40. 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 item-Q item-I item-O Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  41. 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ④ ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 リストを作成 item-Q item-I item-O レコメンド Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  42. 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザーがアクションしたアイテムの合成ベクトルを志向ベクトルと見なす ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ④ ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 リストを作成 item-Q item-I item-O レコメンド Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  43. 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 効果検証 ベクトルを足し合わせる事によってユーザーの志向を捉える事が出来た サービスZ CVRが 27% 改善 21.56% ⇒ 27.29% 概要 オンラインで、ユーザーを2つのグループに分け、word2vecロジックとword2vec足 し合わせロジックでのレコメンドリストを提示し、CVRの違いを調査する
  44. 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンへの実装 〜 Hadoop活用 Hadoop レコメンド生成 バッチ ユーザー 行動ログ 集計バッチユーザー情報 行動ログ ユーザー毎の レコメンド ユーザー毎のパーソナライズレコメンドを日次で実施(主にHive)
  45. 45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ユーザー Web HBase レコメンドテーブルの 参照API Hadoop 行動ログ 集計バッチ 検索API APIリクエスト 検索行動 レコメンド取得 レコメンド バルクロード テーブル参照 リアルタイムレコメンドへの実装 〜 HBase活用 ユーザーの志向をリアルタイムで捉え、リアルタイムにレコメンドを実施
  46. 46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ここまでのまとめ • ユーザーのアクションログをword2vecのインプットに使用し、ア イテムをベクトル化している →文章を1ユーザーのログ、単語をアイテムと見なす • ベクトル同士のcos類似度を計算することで、レコメンドエンジン に活用している • 類似度計算ではHadoopを使って分散処理を行い高速化して いる • ベクトルを足し合わせることでユーザーの志向を捉える事ができ る
  47. 47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. doc2vecを使った文書要約
  48. 48. 48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. doc2vecとは 文章をベクトル化する 1. I am a cat. 2. As yet I have no name. 3. … … 1. I am a cat. (0.2, 0.4, 0.9, …) 2. As yet I have no name. (0.5, 0.7, 0.8, …) 3. … … doc2vec
  49. 49. 49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仮説 〜 doc2vecを文書要約に使う着眼点 一番大きな領域を作る文章ベクトルを取れば、文書のまとめが作れる!? ベクトル 領域 複数の文章ベクトルによって作られた領域は、 その中に入るベクトルを意味的に内包するの ではないか?
  50. 50. 50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3
  51. 51. 51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする
  52. 52. 52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8
  53. 53. 53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8 【参考論文】 http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em nlp2015.pdf
  54. 54. 54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8 【参考論文】 http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em nlp2015.pdf 文書1,3,6,7,10は 文書2,4,5,8,9を意 味的に内包するので はないか?
  55. 55. 55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる ちなみに試合の内容は… ・4番の中村選手が欠場 ・先発の前田投手が好投(7回無失点) ・打線は13安打9得点 ・坂本選手が16打席ぶりのヒットを含む2安打3打点 ・9回にプエルトリコが3ランホームラン etc… 実験手順  記事の内容の把握、及びクレンジング プレミア12準々決勝 日本vsプエルトリコの試合のニュース記事に関するコメン ト(計161件)  投稿のベクトル化、及びまとめに使用する投稿の抽出 今回は5つのコメントを抽出して要約を試みる
  56. 56. 56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる 結果 前田健太はもう決勝投げないだろうな 今日7回まで行かしたってことはそういうこ とだな。 来季メジャーもあるし無理はさせな い。 先発は 大谷と菅野か武田 中継ぎは山崎・則本・牧田 炎上組 松井・増井・西・小川 微妙組 大野・澤村 なんか炎上組は使いたくないし大野 と澤村も内容悪いし やっぱ中継ぎ全然足りてないわ CS見てない人にはわからないかもしれん が、大谷は間隔が空きすぎるとダメになる。 ましてや東京ドームが苦手。 初戦でボコられた韓国サイドは研究に 研究を重ねてリベンジして来ると考えると炎 上して大敗するのが妥当。 よって戦犯大谷ということになる。 まあ、野手が頑張って打撃戦に持ち込 めば話は別だが、相手の先発は何があって も負けないイデウンだから無理でしょう。 仮に大谷が炎上して負けても大谷一 人のせいにしないで欲しいです(涙)。 調整登板させなかった首脳陣にも問題 があるんだから(震え声) ツイッター上のハムファン全員が増井燃え ると予言してて草生えたわw やはり増井はセーブかホールド機会で 投げさせないとアカンな 平田三塁打→松田犠牲フライで実質 試合終了なものだろ ここで一番温い試合してしまったのは 問題あるわ 増井に不安がある以上マッスルミュー ジカルは覚悟しとかないとな マエケンは7回90球、中4日で決勝先 発は十分ありうる 中村外して中村入れる打線は悪くは ないんだが中田が案の定6番外れたら内 容が悪くなった どうすりゃいいんかね? 今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな いで!
  57. 57. 57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる 特定の偏ったコメントではなく、満遍なくコメントが拾う事が可能 結果 前田健太はもう決勝投げないだろうな 今日7回まで行かしたってことはそういうこ とだな。 来季メジャーもあるし無理はさせな い。 先発は 大谷と菅野か武田 中継ぎは山崎・則本・牧田 炎上組 松井・増井・西・小川 微妙組 大野・澤村 なんか炎上組は使いたくないし大野 と澤村も内容悪いし やっぱ中継ぎ全然足りてないわ CS見てない人にはわからないかもしれん が、大谷は間隔が空きすぎるとダメになる。 ましてや東京ドームが苦手。 初戦でボコられた韓国サイドは研究に 研究を重ねてリベンジして来ると考えると炎 上して大敗するのが妥当。 よって戦犯大谷ということになる。 まあ、野手が頑張って打撃戦に持ち込 めば話は別だが、相手の先発は何があって も負けないイデウンだから無理でしょう。 仮に大谷が炎上して負けても大谷一 人のせいにしないで欲しいです(涙)。 調整登板させなかった首脳陣にも問題 があるんだから(震え声) ツイッター上のハムファン全員が増井燃え ると予言してて草生えたわw やはり増井はセーブかホールド機会で 投げさせないとアカンな 平田三塁打→松田犠牲フライで実質 試合終了なものだろ ここで一番温い試合してしまったのは 問題あるわ 増井に不安がある以上マッスルミュー ジカルは覚悟しとかないとな マエケンは7回90球、中4日で決勝先 発は十分ありうる 中村外して中村入れる打線は悪くは ないんだが中田が案の定6番外れたら内 容が悪くなった どうすりゃいいんかね? 今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな いで!
  58. 58. 58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 口コミのまとめ MROC(Marketing Research Online Community) ある特定の商品やテーマなど共通の興味を持った人々をメンバー限定のコミュニ ティに招待し、自由にディスカッションしてもらいながら、消費者のニーズを探る調 査手法 どのような事が話されているかを整 理する事が非常に大変 一つのテーマにつき、数百のコメント が付く
  59. 59. 59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 口コミのまとめ アットホームな 式にしたい リゾート挙式が したい 極力シンプルに したい 沢山のゲストに 来て欲しい テーマに対してどのようなコメントが来ているのかをまとめる
  60. 60. 60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出
  61. 61. 61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① 既存の口コミで領域を 作成
  62. 62. 62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① 既存の口コミで領域を 作成
  63. 63. 63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① ② 既存の口コミで領域を 作成 新規の口コミをプロット
  64. 64. 64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 新規の口コミが「新しい内容を含むかどうか」の判別を行う ① ② ③ 既存の口コミで領域を 作成 新規の口コミをプロット 領域に含まれるか否か を判定
  65. 65. 65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめ
  66. 66. 66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本日のまとめ • ユーザーのアクションログをword2vecのインプットに使用し、ア イテムをベクトル化している • ベクトル同士のcos類似度を計算することで、レコメンドエンジン に活用している • ベクトルを足し合わせることでユーザーの志向を捉える事ができ る • 文書要約にdoc2vecを活用している • 定性的に見て、doc2vecを使った文書要約が有用であること が分かった • doc2vecを口コミの整理や、新たなコメントの内容が新規であ るかどうかの判断ロジックとして活用を検討
  67. 67. 67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 今後の展望 リアルタイムでのユー ザー志向分析 グラフ分析及び グラフDBの導入 A B C D E w(t) w(t+1) w(t+5) ・ ・ ・ w(t-1) w(t-5) ・ ・ ・
  68. 68. 68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビジネスを踏まえて 泥臭くかつアグレッシブに 分析・エンジニアリングが できる方。 ご連絡ください。 戦友をさがしています。 Yes, We Are Hiring! 池田 裕一
  69. 69. ご清聴ありがとうございました
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×