トピックモデルの評価指標 Perplexity とは何なのか?

290 views

Published on

『トピックモデルによる統計的潜在意味解析』読書会ファイナル ~佐藤一誠先生スペシャル~ LT 資料
http://topicmodel.connpass.com/event/27999/

Published in: Data & Analytics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
290
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

トピックモデルの評価指標 Perplexity とは何なのか?

  1. 1. トピックモデルの評価指標   Perplexity とは何なのか? @hoxo_m 2016/03/29
  2. 2. ⾃自⼰己紹介 •     hoxo_m •  所属:匿匿名知的集団ホクソエム
  3. 3. あらすじ •  前回、3.7節の発表の中で  Perplexity を説 明したが、反応があまり良良くなかった •  今回は佐藤トピ本の  p.123〜~125(3ページ) の内容だけにしぼって詳しく説明したい •  Perplexity とは何か?を理理解することが ⽬目的 •  分かってる⼈人は寝ててください
  4. 4. トピックモデルの評価指標 •  トピックモデルの評価指標として Perplexity  と  Coherence  の 2 つが広く 使われている。 •  Perplexity :予測性能 •  Coherence:トピックの品質 •  今回は  Perplexity について解説する 4 Coherence については前回  の LT を参照してください。 http://www.slideshare.net/hoxo_m/coherence-57598192
  5. 5. Perplexity とは •  辞書で引くと・・ – the feeling of being confused or worried by something you cannot understand (理理解できないものにより困惑する感覚) 5 http://www.ldoceonline.com/dictionary/perplexity ⇨  ぶっちゃけ分からん
  6. 6. 佐藤トピ本より •  Perplexity は分岐数または選択肢の数を 表している •  Perplexity  は確率率率の逆数で定義される •  直感的には、確率率率が 0.01 のとき 100 個の 中から⼀一つ選ぶことに相当するので、 「確率率率の逆数は選択肢の数を表している」
  7. 7. 分かったような? 分からないような? 「確率率率の逆数は選択肢の数を表している」
  8. 8. 今⽇日はここを理理解しよう!
  9. 9. 佐藤トピ本(p.123)より •  Perplexity は分岐数または選択肢の数を 表している •  ある⽂文書の  1 単語が隠されているとする This is a ______. •  辞書の語彙数が  10000 のとき、ここに⼊入 る単語の候補は  10000 個(ランダムモデル) •  なんらかの⾔言語モデルを仮定することで 候補数を減らすことができる
  10. 10. ⾔言語モデルと候補数 •  This is a ______. •  普通に考えると – ⼊入るのは名詞  (○  pen, × happy) – 可算名詞である(× coffee, × information) – ⼦子⾳音から始まる  (× apple, × orange) •  我々が持つ⾃自然な⾔言語モデルによる制約   ⇨ ⾔言語モデルを仮定すると候補数は減る
  11. 11. 統計的⾔言語モデル •  LDA  を仮定すれば候補数は減るはず •  LDA  は統計的⾔言語モデル This is a ______. •  単語は、ここに⼊入るか⼊入らないかではな く、⼊入る確率率率で表される   P(“pen”) = 0.01 P(“banana”) = 0.00001 •  このとき「候補数」とはどのように考え れば良良いか?
  12. 12. 正解確率率率と候補数 単語1  ⭕   単語2  ❌ 単語3  ⭕ 単語4  ⭕ 単語5  ❌ 単語6  ❌ 候補は3個 ⇨  正解する確率率率は 1/3 単語1  確率率率  0.01 あとは不不明 正解する確率率率は 1/100 ⇨  候補が  100  個あるのと同じ 単語1を正解とすると・・
  13. 13. Perplexity •  100 個の候補単語から正解を選ぶことと、 確率率率 0.01 の正解を選ぶことは、難しさは 同じ •  Perplexity = 1 / P(正解単語  | M) •  と定義すれば、Perplexity  は、モデル M において正解を選ぶ難しさを表す •  Perplexity = 100 ならば、100 個の候補か ら選ぶのと同じ難しさになる
  14. 14. Perplexity によるモデル評価 •  Perplexity は、モデル M の下で正解を選 ぶ難しさを表す •  Perplexity  は候補数に対応している •  候補数が少ないほど正解を当てやすい   ⇨ Perplexity  はモデルの予測性能を表す
  15. 15. Perplexity  まとめ •  Perplexity は、モデルに従って正解を選 ぶためのある種の困難さを表す •  どれぐらい困難かは、Perplexity 個の選 択肢から正解を選ぶときと同じ困難さ •  Perplexity  は選択肢の数を表す •  Perplexity  は確率率率の逆数で定義される 「確率率率の逆数は選択肢の数を表している」

×