• Like
  • Save
自然言語処理のための機械学習入門1章
Upcoming SlideShare
Loading in...5
×

自然言語処理のための機械学習入門1章

  • 150 views
Uploaded on

@yamano357 さん主催の #NLPStudy での講演資料です.

@yamano357 さん主催の #NLPStudy での講演資料です.

More in: Engineering
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
150
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
1
Comments
0
Likes
4

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. @piroyoung
  • 2. 自己紹介 ステータス • @piroyoung a,k,a みずかみひろき • 数学(ゲーム理論) → SPA企業の総合職(物流・小売) → データナントカ(コンサル)Now! • 最近,渋谷が気になる スキル・興味・近況 • R, SQL, Python, Ruby, Jags/Stan • データマイニング屋 • NLPについては何も知らない • Scala修行中 • 新しいものが好き • Yo!! 始めました → PIROYOUNG • LINEも始めました→ piroyoung 2
  • 3. 自然言語処理のための 機械学習入門 (たかむらぼん) 1章 必要な数学的知識 NLPStudy #2 @piroyoung みずかみ ひろき
  • 4. • 本発表の内容は,あくまでも私個人の見解であり, 所属する組織や団体とは一切関係がありません. • それどころか大部分の情報源が「私の記憶」です. 記憶力には万全を機してはおりますが,もし間違い などありましたら,こっそりご指摘いただければ幸 いです.
  • 5. • 1.2 最適化問題 • 1.2.1 凸集合と凸関数 • 1.2.2 凸計画問題 今日やること • 1.2.3 等式制約付き凸計画問題 • 1.2.4 不等式制約付き凸計画問題 • 1.3 確率 • 1.3.1 期待値 平均 分散 • 1.3.2 結合確率と条件付き確率 • 1.3.3 独立性 • 1.3.4 代表的な離散確率分布 • 1.4 連続確率変数 • 1.4.1 平均・分散 • 1.4.2 連続確率分布の例 • 1.5 パラメータ推定法 • 1.5.1 i.i.dと尤度 • 1.5.2 最尤推定 • 1.5.3 最大事後確率推定 • 1.6 情報理論 • 1.6.1 エントロピー • 1.6.2 KL情報量 • 1.6.3 JS情報量 • 1.6.4 自己相互情報量 • 1.7 この章のまとめ
  • 6. • 1.2 最適化問題 • 1.2.1 凸集合と凸関数 • 1.2.2 凸計画問題 今日やること • 1.2.3 等式制約付き凸計画問題 • 1.2.4 不等式制約付き凸計画問題 • 1.3 確率 • 1.3.1 期待値 平均 分散 • 1.3.2 結合確率と条件付き確率 • 1.3.3 独立性 • 1.3.4 代表的な離散確率分布 • 1.4 連続確率変数 • 1.4.1 平均・分散 • 1.4.2 連続確率分布の例 • 1.5 パラメータ推定法 • 1.5.1 i.i.dと尤度 • 1.5.2 最尤推定 • 1.5.3 最大事後確率推定 • 1.6 情報理論 • 1.6.1 エントロピー • 1.6.2 KL情報量 • 1.6.3 JS情報量 • 1.6.4 自己相互情報量 • 1.7 この章のまとめ
  • 7. 突然ですがアンケート Q:最尤法を知っていますか?
  • 8. 突然ですがアンケート Q:最尤法を知っていますか? ◾集計結果◾ ◾Yes以外:5% ◾Yes: % 950000 ⇥ 104
  • 9. 最尤法の解説 ゆーどかんすー! ✓ f(Y |✓)
  • 10. 最尤法の解説 f(Y |✓)
  • 11. 最尤法の解説 ゆーどかんすー! さいゆーすいて一ち f(Y |✓) ✓ ★
  • 12. 再び突然ですがアンケート Q:最尤法が理解できましたか?
  • 13. 再び突然ですがアンケート Q:最尤法が理解できましたか? ◾Yes:100% ◾Yes以外:0% ◾集計結果◾
  • 14. 情報量のあれこれ Kullback Leibler divergence (KL情報量) • 事前分布 p( ·)の元での情報 Y のKL情報量 D KL (Y || p( ·))を DKL (Y ||p(·)) := Ep(·|Y )  log p(·|Y ) p(·) "
  • 15. 情報量のあれこれ Kullback Leibler divergence (KL情報量) • 事前分布 p( ·)の元での情報 Y のKL情報量 D KL (Y || p( ·))を DKL (Y ||p(·)) := Ep(·|Y )  log p(·|Y ) p(·) " DKL( || ) = p(Yes| ) log p(Yes| ) p(Yes) = log 1 0.95 = log 0.95 = 0.05129329 . . . 確率分布間の「遠さ」のようなもの!! 要するに・・・
  • 16. 情報量のあれこれ Kullback Leibler divergence (KL情報量) • 事前分布 p( ·)の元での情報 Y のKL情報量 D KL (Y || p( ·))を DKL (Y ||p(·)) := Ep(·|Y )  log p(·|Y ) p(·) " 要するに当・・た・らずとも遠からず!! DKL( || ) = p(Yes| ) log p(Yes| ) p(Yes) = log 1 0.95 = log 0.95 = 0.05129329 . . . 確率分布間の「遠さ」のようなもの!!
  • 17. • 1.2 最適化問題 • 1.2.1 凸集合と凸関数 • 1.2.2 凸計画問題 今日やること • 1.2.3 等式制約付き凸計画問題 • 1.2.4 不等式制約付き凸計画問題 • 1.3 確率 • 1.3.1 期待値 平均 分散 • 1.3.2 結合確率と条件付き確率 • 1.3.3 独立性 • 1.3.4 代表的な離散確率分布 • 1.4 連続確率変数 • 1.4.1 平均・分散 • 1.4.2 連続確率分布の例 • 1.5 パラメータ推定法 • 1.5.1 i.i.dと尤度 • 1.5.2 最尤推定 • 1.5.3 最大事後確率推定 • 1.6 情報理論 • 1.6.1 エントロピー • 1.6.2 KL情報量 • 1.6.3 JS情報量 • 1.6.4 自己相互情報量 • 1.7 この章のまとめ
  • 18. • 解析的な裏付け中心 (☓ アルゴリズム) • 「最適化問題」とは何かがわかる! • 最適化問題の分類がわかる!! • 凸性が嬉しくなる • Lagrangeの未定乗数法 • KKT条件 本日のスコープ
  • 19. 1.2 最適化問題 #とは 1.2.1 凸集合と凸関数 1.2.2 凸計画問題 1.2.3 等式制約付き凸計画問題 1.2.4 不等式制約付き凸計画問題
  • 20. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi 倉庫 wj 需要 輸送コスト単価cij Wj
  • 21. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi :ちゃんと持ってこいよ! Wj 倉庫 wj 需要 輸送コスト単価cij X i xij = wj Wj
  • 22. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi :ちゃんと持ってこいよ! Wj 倉庫 wj 需要 輸送コスト単価cij X i xij = wj :俺にも限界がある Wj Fi X j xij  fi
  • 23. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi :ちゃんと持ってこいよ! Wj 倉庫 wj 需要 輸送コスト単価cij X i xij = wj :俺にも限界がある Wj Fi X j xij  fi 僕:いくらかかかるの? f(x) = X i X j cijxij
  • 24. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi :ちゃんと持ってこいよ! Wj 倉庫 wj 需要 輸送コスト単価cij X i xij = wj :俺にも限界がある Wj Fi X j xij  fi 僕:いくらかかかるの? f(x) = X i X j cijxij 僕:やすくせえよ!!
  • 25. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi :ちゃんと持ってこいよ! Wj 倉庫 wj 需要 輸送コスト単価cij X i xij = wj :俺にも限界がある Wj Fi X j xij  fi 僕:いくらかかかるの? f(x) = X i X j cijxij 僕:やすくせえよ!! 最小化問題!!
  • 26. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi :ちゃんと持ってこいよ! Wj 倉庫 wj 需要 輸送コスト単価cij X i xij = wj :俺にも限界がある Wj Fi X j xij  fi 僕:いくらかかかるの? f(x) = 目的関数 X i X j cijxij 僕:やすくせえよ!! 最小化問題!!
  • 27. 1.2 最適化問題 #とは     輸送量xij     工場Fi 出荷上限fi :ちゃんと持ってこいよ! Wj 倉庫 wj 需要 輸送コスト単価cij X i 制約条件 xij = wj :俺にも限界がある Wj Fi X j xij  fi 僕:いくらかかかるの? f(x) = 目的関数 X i X j cijxij 僕:やすくせえよ!! 最小化問題!!
  • 28. 1.2 最適化問題 #とは ・このことを一般にこう書く 最適化問題 Minimize : f(x) subject to : x 2 S ・この問題設定は珍しくない. 制約付き線形回帰 Minimize : kY − bXk2 subject to : bi 0 f(x) x 2 S S ▶目的関数 ▶許容解・実行可能解 ▶実行可能領域 x⇤s.t.f(x⇤) = min ▶最適解 x2S f(x) • 最大化の問題は最小化問題に帰 着させられる.
  • 29. 1.2 最適化問題 #とは ・このことを一般にこう書く 最適化問題 Minimize : f(x) subject to : x 2 S ・この問題設定は珍しくない. 制約付き線形回帰 Minimize : kY − bXk2 subject to : bi 0 • 最尤法 ▶尤度の最大化 • サポートベクターマシーン ▶マージンの最大化 • 線形回帰 ▶2乗誤差の最小化 • 金融 ▶リスクの最小化 ▶期待利得の最大化 • 製造業 ▶コストの最小化 ▶利益の最大化
  • 30. 1.2 最適化問題 #とは 最適化問題• 一般の場合 Minimize : f(x) subject to : x 2 S ▶非線形最適化 • かつ 凸 ▶凸計画 • かつ線形 ▶線形計画 ▶一般の関数 ▶一般の集合 ▶凸関数 ▶凸集合 ▶1次関数 ▶多面体 f S f S f S
  • 31. 1.2 最適化問題 #とは 最適化問題• 一般の場合 Minimize : f(x) subject to : x 2 S ▶非線形最適化 • かつ 凸 ▶凸計画 • かつ線形 ▶線形計画 ▶一般の関数 ▶一般の集合 ▶凸関数 ▶凸集合 ▶1次関数 ▶多面体 f S f S f S 今回!!
  • 32. 1.2 最適化問題 #とは 1.2.1 凸集合と凸関数 1.2.2 凸計画問題 1.2.3 等式制約付き凸計画問題 1.2.4 不等式制約付き凸計画問題
  • 33. 1.2.1 凸集合と凸関数 • 凸集合とは「へこみ」が無い集合▶凸でない集合 ▶凸集合 S ⇢ Rn が凸集合 def , 8x, y 2 S 8 2 [0, 1] に対して次が成り立つ x + (1 − )y 2 S
  • 34. 1.2.1 凸集合と凸関数 • 凸集合とは「へこみ」が無い集合 S ⇢ Rn が凸集合 def , 8x, y 2 S 8 2 [0, 1] に対して次が成り立つ x + (1 − )y 2 S ▶エピグラフ • エピグラフ epif = {(x, y) 2 Rn+1|y " f(x), x 2 Rn} なる領域 epif を関数 f のエピグラフという.
  • 35. 1.2.1 凸集合と凸関数 • 凸関数は凹みがない関数 f : R ! Rn が凸関数 def , epif が凸集合 • 凸関数の凸集合上での極小解は 最小解(最適解) • の補集合が凸な時はその 関数を凹関数という. epif epif • 極値を持つ凸関数 is 狭義凸関数
  • 36. 1.2 最適化問題 #とは 1.2.1 凸集合と凸関数 1.2.2 凸計画問題 1.2.3 等式制約付き凸計画問題 1.2.4 不等式制約付き凸計画問題
  • 37. 1.2.2 凸計画問題 • 凸計画問題• この手の問題は結局のところ極値 を探す問題になる. • ご想像の通り線形計画問題は凸計 画問題 • 凸計画問題は非線形計画問題 最適化問題 Minimize : f(x) subject to : x 2 S において が凸関数 が凸集合 f(x) S なる最適化問題を凸計画問題という
  • 38. 1.2.2 凸計画問題 • 一般の制約がない場合• この手の問題は結局のところ極値 を探す問題になる. Minimize : f(x) x⇤ が最適解であるための.. rf(x⇤) = 0 r2f(x⇤) r2f(x⇤) ▶1次必要条件 <=> 極値 :半正定値行列 :正定値行列 ▶2次必要条件 <=> 凸関数 ▶2次十分条件 <=> 狭義凸関数 r※ rf(x⇤):勾配ベクトル2f(x⇤) :ヘッセ行列
  • 39. 1.2.2 凸計画問題 • 一般の制約がない場合• この手の問題は結局のところ極値 を探す問題になる. Minimize : f(x) x⇤ が最適解であるための.. rf(x⇤) = 0 r2f(x⇤) r2f(x⇤) ▶1次必要条件 <=> 極値 :半正定値行列 :正定値行列 ▶2次必要条件 <=> 凸関数 凸計画では1次だけ見れば良い! ▶2次十分条件 <=> 狭義凸関数 r※ rf(x⇤):勾配ベクトル2f(x⇤) :ヘッセ行列
  • 40. 1.2 最適化問題 #とは 1.2.1 凸集合と凸関数 1.2.2 凸計画問題 1.2.3 等式制約付き凸計画問題 1.2.4 不等式制約付き凸計画問題
  • 41. 1.2.3 等式制約付き凸計画問題 • 等式制約付き凸計画 Minimize : f(x) subject to : gi(x) = 0 f(x) f(x) x⇤ • が極値をとる が許容解とは限らない! • このとき1次の必要条件 に変わるものは?? rf(x⇤) = 0
  • 42. 1.2.3 等式制約付き凸計画問題 rg(x⇤) と r f ( x ⇤ ) が一次従属になっている
  • 43. 1.2.3 等式制約付き凸計画問題 Minimize : f(x) subject to : gi(x) = 0 • 先の図を一般的に・・・ 9i 2 R s.t. rf(x⇤) = X i irgi(x⇤) ▶1次必要条件 : 下記を満たす が存在する.
  • 44. 1.2.3 等式制約付き凸計画問題 Minimize : f(x) subject to : gi(x) = 0 • 先の図を一般的に・・・ ▶1次必要条件 : 下記を満たす が存在する. 9i 2 R s.t. rf(x⇤) = X i irgi(x⇤) • ↑の x⇤ の探し方として... L(x, ) := f(x⇤) X i igi(x⇤) なる関数において下記の解は1次必要条件を満たす! ! !x L(x⇤, "⇤) = 0 ! !" L(x⇤, "⇤) = 0
  • 45. 1.2.3 等式制約付き凸計画問題 Minimize : f(x) subject to : gi(x) = 0 • 先の図を一般的に・・・ 9i 2 R s.t. rf(x⇤) = X i irgi(x⇤) ▶1次必要条件 : 下記を満たす が存在する. • ↑の x⇤ の探し方として... L(x, ) := f(x⇤) X i igi(x⇤) Lagrangeの未定乗数法 なる関数において下記の解は1次必要条件を満たす! ! !x L(x⇤, "⇤) = 0 ! !" L(x⇤, "⇤) = 0
  • 46. 1.2 最適化問題 #とは 1.2.1 凸集合と凸関数 1.2.2 凸計画問題 1.2.3 等式制約付き凸計画問題 1.2.4 不等式制約付き凸計画問題
  • 47. 1.2.3 不等式制約付き凸計画問題 • 不等式制約付き凸計画 Minimize : f(x) subject to : gi(x) = 0 hj(x)  0 • 不等式制約 を考慮する最適化問題 hj(x)  0 • このとき1次の必要条件 r f ( x ⇤ ) = 0 に変わるものは??
  • 48. 1.2.3 不等式制約付き凸計画問題 • 有効な制約 点 x 2 R n で制約 h k ( x )  0 が有効である. def , hk(x) = 0 Minimize : f(x) subject to : gi(x) = 0 hj(x)  0 ▶有効な制約のみで未定乗数法を適用すればよい!
  • 49. 1.2.3 不等式制約付き凸計画問題 • KKT条件 Minimize : f(x) subject to : gi(x) = 0 hj(x)  0 x ⇤ 2 R が最適解であるとする. このとき g i 及び がある条件を満たせば hj rf(x⇤) = irgi(x⇤) + μjrhj(x⇤) gi(x⇤) = 0 hj(x⇤)  0, μj " 0, μjhj(x⇤) = 0 なる 2 R m 及び μ 2 R l が存在する. ▶制約想定 ▶相補性条件
  • 50. まとめ
  • 51. まとめ 制約なし制約あり 1次の必要条件KKT条件 2次の必要条件が半正定値 Lagrange関数の ちょめちょめ 2次の十分条件正定値 Lagrange関数の ちょめちょめ rf(x⇤) = 0 r2f(x⇤) r2f(x⇤)
  • 52. まとめ 制約なし制約あり 1次の必要条件KKT条件 2次の必要条件が半正定値 Lagrange関数の Hessianが半正定値 凸計画では1次の必要条件だけみてればいい 2次の十分条件正定値 Lagrange関数の Hessianが正定値 rf(x⇤) = 0 r2f(x⇤) r2f(x⇤)
  • 53. もっと知りたい方へ • KKT条件 • Fakasの補題(二者択一の定理) • 強分離定理 (凸解析の話題) • ハーン・バナッハの定理(関数解析) • Lagrangeの未定乗数法 • 陰関数の定理
  • 54. 参考文献 • 本日の教材はこの本の1章 • 2章の 「文書および単語の数学的表現」 • はめっちゃバイブル • 次回発表楽しみにしています.
  • 55. 参考文献 • 薄い本 • その割に実例のってる. • コンパクトに要点がまとまっていま す.
  • 56. 参考文献 • 理論とアルゴリズムのバランスがい い感じ. • しかも薄い.
  • 57. 参考文献 • そこそこ重い • 質量が大きい • 内容が濃い • アルゴリズムより • 私が学生のときはこんな本なかった! • 最適化版PRML!?