トピックモデルの評価指標 Coherence 研究まとめ #トピ本

【論論⽂文紹介】　
トピックモデルの評価指標
Coherence 研究まとめ
2016/01/28
牧⼭山幸史
1

発表の流流れ
1.  研究背景、基礎知識識
2.  既存研究の紹介(5つ)
3.  まとめ
2

1. 研究背景、基礎知識識
•  トピックモデルの評価指標として
Perplexity と Coherence の 2 つが広く
使われている。
•  Perplexity：予測性能
•  Coherence：トピックの品質
•  確率...

Coherence とは
•  和英辞典によると：
⾸首尾⼀一貫性
•  対義語：incoherence
⽀支離離滅裂裂
http://ejje.weblio.jp/content/coherence
http://ejje.weblio.jp...

Coherence とは
•  抽出されたトピックが⼈人間にとって解釈
しやすいかどうかを表す指標
•  トピックを表す単語集合を考える
{ farmers, farm, food, rice, agriculture }
{ stories,...

Coherence 研究
•  Coherence の定義は明確ではない
•  Coherence が⾼高いかどうかは⼈人間により
判断可能
•  Chang(2009) ⼈人間による評価法を提案
•  Newman(2010) ⾃自動評...

発表の流流れ
3.  まとめ
7

2. 既存研究の紹介
① Chang (2009)
② Newman (2010)
③ Mimno (2011)
④ Aletras (2013)
⑤ Lau (2014)
8

① Chang (2009)
•  “Reading Tea Leaves: How Humans
Interpret Topic Models”
紅茶茶占い：⼈人間はどうやってトピックモデルを解釈
するか
•  トピックモデルの評価指標として...

① Chang (2009)
＜研究背景＞
•  トピックモデルの評価指標として、
Perplexity が広く使われている
•  抽出されたトピックが解釈できないのは困る
•  トピックの品質に関する指標が必要
•  ⼈人間の解釈可能性(H...

Word Intrusion(単語の押しつけ)
•  トピックの単語群の中に、⼀一つだけ別の
単語を混ぜて、⼈人間に⾒見見つけさせる
•  仲間はずれはどれか？：
{ dog, cat, horse, apple, pig, cow }
{ ...

① Chan (2009)
•  CTM, LDA, pLSI の 3つのトピックモデル
に対して、発⾒見見成功率率率(Coherence)を測定
•  結果は次ページ
•  CTM は Perplexity は良良いが(上表太字)、
Co...

① Chang (2009) まとめ
•  Coherence を定義した最初の論論⽂文
•  Word Intrusion によって⼈人間に評価させ
る
•  Perplexity が良良いモデルでも Coherence
が良良い...

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
15

② Newman (2010)
•  “Automatic Evaluation of Topic
Coherence”
トピックコヒーレンスの⾃自動評価
•  ①Chang(2009) では、⼈人間による
Coherence の評価を⾏行行っ...

② Newman (2010)
＜基本アイデア＞
•  Coherence は単語間の類似度度に依存する
{ farmers, farm, food, rice, agriculture }
{ stories, undated, recei...

② Newman (2010)
•  トピックを代表する単語集合 w に対して、
単語間類似度度 D(wi, wj) の平均値もしくは
中央値を Coherence とする
•  ⼈人間による Coherence 評価と同じような
結果...

② Newman (2010)
•  ⼈人間による Coherence の評価⽅方法は、
①Chang(2009) と異異なり、直接的な⽅方法
•  トピックの単語集合を⾒見見せ、それらの単
語間の関連性を 3 段階評価させる
「良良い」「中...

Downloaded BOOKS(12,000) from the Internet Archive
20

NEWS articles(55,000) from English Gigaword
21

② Newman (2010)
•  参照コーパスとして Wikipedia、単語間
類似度度として PMI (⾃自⼰己相互情報量量) を　
使った場合が、⼈人間による評価と相関が
最も⾼高い
※ 10 words sliding win...

(余談)Google-based similarity
•  Google 検索索に基づく単語集合類似度度
•  単語集合 w の全ての単語を繋げたクエリ
を作る
+space +earth +moon +science +scientist...

② Newman (2010) まとめ
•  Coherence を⼈人⼿手を使わずに算出する⽅方
法を提⽰示した
•  この⼿手法は、UCI Coherence と呼ばれ、
広く使われている
24

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
25

③ Mimno (2011)
•  “Optimizing Semantic Coherence in
Topic Models”
トピックモデルの意味的コヒーレンスの最適化
•  ②Newman(2010)では、参照コーパス
(Wikiped...

③ Mimno (2011)
•  Framework は②Newman(2010)と同じ
•  単語間類似度度として、対数条件付き確率率率
•  学習コーパスを⽤用いる
D(v): 単語出現⽂文書数　D(v1,v2): 単語共起⽂文書数...

③ Mimno (2011)
•  ⼈人間による３段階評価との関係を⾒見見る
•  ベースラインとして、そのトピックに割
り当てられたトークン数(ギブスサンプリ
ングにより推定)と⽐比較
•  ⼈人間による評価に近い結果が得られた
(※②New...

③ Mimno (2011)
•  (good) v.s. (bad + intermediate)
•  ROC 曲線の AUC
– トークン数： 0.79
– Coherence：0.87
•  ロジスティック回帰の AIC
– トークン数...

(余談) Word Intrusion の問題点
•  この論論⽂文では ①Chang が提案した Word
Intrusion の問題点が指摘されている
•  トピックの単語が Chain している場合、
仲間はずれを⾒見見つけやすい
{ ...

③ Mimno (2011) まとめ
•  参照コーパスを使わず、学習コーパスの
みで Coherence を算出する⽅方法を⽰示した
•  UMass Coherence と呼ばれる
•  genism に実装されている
•  新語、...

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
33

④ Aletras (2013)
•  “Evaluating Topic Coherence Using
Distributional Semantics”
統計的意味論論を使ったトピックコヒーレンスの
評価
•  統計的意味論論における単語...

④ Aletras (2013)
•  Framework は②Newman(2010)と同じ
•  単語間類似度度の算出に PMI でなく、意味
空間(Semantic Space)上の類似度度を使う
– コサイン類似度度、Dice係数...

意味空間(Semantic Space)
•  単語を共起情報を⽤用いてベクトル化
– ⽂文脈ベクトルと呼ぶ
•  よく似た共起分布を持つ単語はよく似た
意味を持つ単語である
36

意味空間(Semantic Space)
http://www.slideshare.net/unnonouno/20140206-statistical-semantics
37

④ Aletras (2013)
•  意味空間を作るための単語の共起情報
•  PMI (⾃自⼰己相互情報量量)
•  NMPI (Normalized PMI) (Bouma2009)
※それぞれ⼆二乗値を⽤用いる
38

④ Aletras (2013)
•  全ての単語では意味空間の次元が⼤大きい
•  Reduced Semantic Space (Islam2006)
– 各単語 wi に対して、トップ βwi 個だけ使⽤用
•  Topic Word S...

④ Aletras (2013)
•  ⽂文脈ベクトル間の類似度度 3 つ
•  コサイン類似度度
•  Dice 係数
•  Jaccard 係数
http://sucrose.hatenablog.com/entry/2012/11/3...

④ Aletras (2013)
•  ⽂文脈ベクトル集合の類似度度 1 つ
•  トピックの全単語の⽂文脈ベクトルの重⼼心
(Centroid)を Tc とするとき、重⼼心からの
コサイン類似度度の平均値
41

④ Aletras (2013)
•  2 × 2 × (3+1) = 16 パターンについて、⼈人
間による評価とのスピアマン相関を⾒見見る
•  ⼈人間による評価は 3 段階評価
•  学習コーパス 3 つを LDA で学習
– NYT...

④ Aletras (2013)
•  既存研究で良良いものをベースラインとする
Average NPMI が最も良良い
Newman の PMI を NPMI
に変えたもの
43

Reduced Semantic Space
は既存研究より悪い
44

Topic Word Space は
既存研究より良良い
類似度度はコサイン類似度度が
総合的に良良い
45

④ Aletras (2013) まとめ
•  意味的な類似度度を⽤用いた Coherence 評価
•  Topic Word Space でコサイン類似度度を使
うと既存研究より良良くなった
•  統計的意味論論によるアプローチの有効...

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
47

⑤ Lau(2014)
•  “Machine Reading Tea Leaves:
Automatically Evaluation Topic Coherence
and Topic Model Quality”
機械で紅茶茶占い：トピッ...

既存研究まとめ
モデル⼈人間評価類似度度⽐比較
①Chang pLSI
LDA
CTM
Word
Intrusion
②Newman LDA 3段階 PMI なし
③Mimno LDA 3段階 LCP なし
④Aletras LDA 3段...

既存研究の問題点
•  ①Chang(2009) と誰も⽐比較していない
⇨ Word Intrusion の⾃自動化
•  トピックモデルの評価指標のはずが LDA
だけで評価
⇨ pLSI, LDA, CTM の 3つ
•  参照コー...

既存研究の問題点
•  モデルレベルで⾒見見た場合の Coherence と
トピックレベルで⾒見見た場合の Coherence
を分けて考えてない
⇨ 分けて調査
51

モデルレベル Coherence
•  モデルに対する Coherence はトピックに
対する Coherence の平均値とする
•  pLSI, LDA, CTM のそれぞれをトピック数
50, 100, 150 で作成(合計 9 ...

モデルレベル Coherence
•  ⼈人間による評価：
– Word Intrusion(WI)
– Observed Coherence(OC) : 3段階評価
•  この論論⽂文では、WI の⾃自動評価法を提案
•  OC については既...

学習データと参照コーパス
•  学習データ：
– WIKI: Wikipedia(10,000)
– NEWS: New York Times(8,447)
•  参照コーパス：
– WIKI-FULL: Wikipedia(3,300,000...

Word Intrusion の⾃自動化
＜基本アイデア＞
•  Lau(2010) では、トピックの単語集合から
「最も良良くトピックを表す単語」を⾒見見つ
ける⽅方法を⽰示した
•  Word Intrusion は「トピックを表す単語
と...

Word Intrusion の⾃自動化
•  Intruder word を含む単語の集合について
SVM-rank で順位を学習
•  特徴量量 3 つ
56

モデルレベル(WI)
•  PMI が良良い
(※NPMI は特徴量量の PMI を NPMI に変たもの)
•  参照コーパスは同じドメインが良良い
57

モデルレベル(OC)
•  単語間類似度度として 4 つ
•  PMI (②Newman)
•  NPMI (Newman改)
•  LCP (③Mimno)
– ただし、参照コーパスを使⽤用
•  DS (④Aletras)
– 意味空間上の...

モデルレベル(OC)
•  総合的には NPMI が良良い
•  WIKI に対しては LCP がベスト
59

モデルレベル(WI v.s. OC)
•  WI-Human と OC-Human は強い相関
⇨ 2つのアプローチはほぼ同じとみなして良良い
•  PMI 以外は WI とも相関が⾼高い
•  参照コーパスは同じドメインが良良い
60

モデルレベルまとめ
•  WI と OC はほぼ同じとみなしてよい
•  以下の⼿手法のどれも良良い
– WI-Auto-PMI (WI でトップ)
– OC-Auto-NPMI (OC でトップ)
– OC-Auto-LCP (WIKI ...

トピックレベル Coherence
•  9 つのモデルの 900 トピックに対して　
モデルレベルと同様に⽐比較
•  モデルレベルに⽐比べて⾮非常に低い相関
•  本質的な難しさがある
•  Human Agreement: 評価者を２グ...

トピックレベル(WI)
•  ⾮非常に低い
63

トピックレベル(OC)
•  Human Agreement に勝利利
⇨ ⼈人間と同レベルの評価が可能
•  OC-NPMI と OC-DS が良良い
64

トピックレベル(WI v.s. OC)
•  WI-Human と OC-Human の相関は低い
•  WI-Human に対して最も良良いのは OC-DS
だが、Human Agreement より低い
65

(余談) WI の問題点
(太字：Intruder Word 　四⾓角：⼈人間が選んだ単語)
1 & 2 ← 最初から仲間はずれが⼀一つある
3 & 4 ← 偶然関係のある単語が Intrude された
5 & 6 ← Intruder Wor...

⑤ Lau(2014) まとめ
•  Coherence の⾃自動評価について、これま
でに提案された様々な⼿手法を⽐比較した。
•  モデルレベルでは、WI と OC に違いはな
く、既存の OC-NPMI, OC-LCP および
我々の...

発表の流流れ
3.  まとめ
68

トピックモデルの評価指標 Coherence 研究まとめ #トピ本

hoxo_m

トピックモデルの評価指標 Coherence 研究まとめ #トピ本

A particular slide catching your eye?