Your SlideShare is downloading. ×
形態素解析器 売ってみた
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

形態素解析器 売ってみた

312

Published on

形態素解析器 売ってみた

形態素解析器 売ってみた

Published in: Engineering
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
312
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. DSIRNLP 07 形態素解析器 売ってみた 高岡一馬
  • 2. 自己紹介 元 茶筌メンテナ 形態素解析歴15年? ATOKもやってます • ハイブリッドコア • おまかせキーワード チャージャー • 同音語選択精度向上 高岡一馬 株式会社ジャストシステム 2
  • 3. 3 ATOK、ConceptBaseで培ったノウハウと 機械学習を融合した日本語解析エンジン JustSystems Morphological Analysis Technorogy ”ジャストシステムの形態素解析技術”
  • 4. 統計的手法による形態素解析 表記 品詞 にわ 一般名詞 に 助詞 わに 一般名詞 にわとり 一般名詞 が 助詞 い 上一段動詞 る 活用語尾:終止 。 句点 区切って、品詞を選ぶ 系列ラベリング問題 隣接する要素の情報を利用 (n-gram) 必要なリソース • 辞書 • 教師データ(学習コーパス) (ほかのやり方もあります) 4
  • 5. 分析が大事 統計手法 ○すぐに精度がだせる × 少数で深刻な問題は数値ではみえない ちゃんと事例をみる • 精度がいいとおもったら…… → 同じフレーズが何度も出現 • ユーザーにあわせた評価 5
  • 6. 新規手法開発より辞書 辞書追加 >>>>>> あたらしい学習手法 6 https://twitter.com/taku910/status/127043950195384320 https://twitter.com/ceekz/status/5787706657229250560
  • 7. でもむやみに辞書にいれると…… 「まれ」を人名で登録 辞書登録には ノウハウが必要 7 表記 品詞 こういう 連体詞 例 一般名詞 は 助詞 まれ 固有人名 で 助動詞 は 助詞 な 補助用言 い 活用語尾:終止
  • 8. 登録する? しない? 説明性 • 一貫性 • 規範性? 新語 一過性かどうか 弊害 辞書の肥大化、誤解析、メンテナンス性 8
  • 9. 人手の介入 クリティカルな事例 どうしても直さなきゃいけない 機械学習では • 挙動を説明できない • 学習のたび結果が変わる どこかに介入できるところをつくる • ルールによる補正 • ユーザー辞書 9
  • 10. 区切りの単位 区切り単位はアプリケーションによる • 長単位・中単位 意味、統語構造の処理用 • 短単位 検索用、後段処理の基本要素として 形態素 → 単語 → 統語構造 • 語構成と統語構造は別レイヤー • まぜちゃいけないんだけど…… 10
  • 11. 表記統制 軽量な単語識別 • 検索 • 後段処理 統制対象 • 異表記 • 送り仮名 11 たけのこ タケノコ 筍 竹の子 タケノコ
  • 12. 短単位とまぜるとつらい 基本方針: 生物名はカタカナ きりん → キリン、象 → ゾウ 短単位に切ると…… • マツバ/ガニ、カニ • カニでマツバガニが検索できない • しかたないので → 松葉/蟹、蟹 どうしても両立しない原則はでてくる 12
  • 13. 読み付与 つらい 読みと発音 ルビ、点訳、 読み上げ アクセント 読み上げ 語構成との関係 連濁(eg. いっぽん、にほん、さんぼん……) 13
  • 14. 分割情報 辞書では1語だけど出力は分割 使い道 • 出力単位のつかいわけ • 誤解析の矯正 • ユーザー辞書との組み合わせ 14 登録単語 にわにはにわとり 名詞 分割情報 にわ に は にわとり 品詞 名詞 助詞 助詞 名詞
  • 15. 制約付き解析 一部だけ答えを指定 にわに[はにわ:名詞]にわとりがいる 使い道 • 下流処理との連携 • コーパスの体系変換 実装例 茶筌、MeCab 15
  • 16. 形態素解析って枯れちゃった? 辞書追加 >>>>>> あたらしい学習手法 (再掲) • ベースラインの精度高い • 改善してもちょっと • 未知語推定がんばるより辞書 • コーパスもいいのがあるし • もうやることない…… 16
  • 17. 本当に? 現場は問題山積 解くべき課題の設定が間違ってるんじゃない? 性能指標もおかしい • コーパスの一貫性がいちばん精度に影響 • むずかしい少数の事例 形態素解析というタスクそのものの見直し 17
  • 18. まとめ 統計的手法 + 人手介入 辞書が大事 地道なリソース作成と調整の継続が必要 まだまだ解決すべき問題はある 18

×