Your SlideShare is downloading. ×
ジャストシステムの形態素解析技術
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

ジャストシステムの形態素解析技術

141

Published on

ジャストシステムの形態素解析技術

ジャストシステムの形態素解析技術

Published in: Engineering
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
141
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. JustTechTalk #01 ジャストシステムの 形態素解析技術 高岡一馬
  • 2. 自己紹介 元 茶筌メンテナ 形態素解析歴15年? ATOKもやってます • ハイブリッドコア • おまかせキーワード チャージャー • 同音語選択精度向上 高岡一馬 株式会社ジャストシステム CPS事業部開発部 NLPチーム 2
  • 3. 3 ATOK、ConceptBaseで培ったノウハウと 機械学習を融合した日本語解析エンジン JustSystems Morphological Analysis Technorogy ”ジャストシステムの形態素解析技術”
  • 4. 統計的手法による形態素解析 表記 品詞 にわ 一般名詞 に 助詞 わに 一般名詞 にわとり 一般名詞 が 助詞 い 上一段動詞 る 活用語尾:終止 。 句点 区切って、品詞を選ぶ 系列ラベリング問題 隣接する要素の情報を利用 (n-gram) 必要なリソース • 辞書 • 教師データ(学習コーパス) (ほかのやり方もあります) 4
  • 5. 分析が大事 統計手法 ○すぐに精度がだせる × 少数で深刻な問題は数値ではみえない ちゃんと事例をみる • 精度がいいとおもったら…… → 同じフレーズが何度も出現 • ユーザーにあわせた評価 5
  • 6. 新規手法開発より辞書 辞書追加 >>>>>> あたらしい学習手法 6
  • 7. でもむやみに辞書にいれると…… 「まれ」を人名で登録 辞書登録には ノウハウが必要 7 表記 品詞 こういう 連体詞 例 一般名詞 は 助詞 まれ 固有人名 で 助動詞 は 助詞 な 補助用言 い 活用語尾:終止
  • 8. 登録する? しない? 説明性 • 一貫性 • 規範性? 新語 一過性かどうか 弊害 辞書の肥大化、誤解析、メンテナンス性 8
  • 9. 人手の介入 クリティカルな事例 どうしても直さなきゃいけない 機械学習では • 挙動を説明できない • 学習のたび結果が変わる どこかに介入できるところをつくる • ルールによる補正 • ユーザー辞書 9
  • 10. JMATのコーパス タグ付きコーパス • 精密にタグ付け • メンテナンスできるのは数万文まで? 誤解析コーパス 言い回しコーパス 標準的な機能表現を網羅したコーパス タグなしコーパス 10
  • 11. JMATの品詞 ユーザーがみる品詞 • わかりやすい分類(学校文法を基礎) • たくさんあるとつかいこなせない 解析器の内部状態 • 精度の確保にはあるていどの粒度が必要 • JMATでは600以上を定義 • コーパスはこちらで作成 11
  • 12. チューニング 能動学習 間違ったところだけを追加学習 部分アノテーション学習 一部だけタグをつける 人手の調整 修正ルール、辞書調整、未知語処理調整など 12
  • 13. 1313 ベース学習 Webテキスト コーパス クラスタリング フィルタリング 誤解析しそうな テキスト群 高精度 タグ付きコーパス (数万文) 自動タグ付け コーパス (数百万文) 能動学習用 コーパス 部分アノテーショ ン学習 フィルタリング能動学習 統計 モデル 完成! なんやかんや 調整
  • 14. 区切りの単位 区切り単位はアプリケーションによる • 長単位・中単位 意味、統語構造の処理用 • 短単位 検索用、後段処理の基本要素として 形態素 → 単語 → 統語構造 • 語構成と統語構造は別レイヤー • まぜちゃいけないんだけど…… 14
  • 15. 表記統制 軽量な単語識別 • 検索 • 後段処理 統制対象 • 異表記 • 送り仮名 15 たけのこ タケノコ 筍 竹の子 タケノコ
  • 16. 短単位とまぜるとつらい 基本方針: 生物名はカタカナ きりん → キリン、象 → ゾウ 短単位に切ると…… • マツバ/ガニ、カニ • カニでマツバガニが検索できない • しかたないので → 松葉/蟹、蟹 どうしても両立しない原則はでてくる 16
  • 17. まとめ 統計的手法 + 人手介入 辞書が大事 地道なリソース作成と調整の継続が必要 17
  • 18. NLPエンジニア募集 自然言語処理、機械学習を活用し、新規サービスの価値を高めるた めの技術の選択・提案と、開発業務を担当していただきます。 ■必須スキル ・自然言語処理技術もしくは機械学習を実務で利用した経験 ・Javaでの開発経験 ■歓迎スキル ・Pythonでの開発経験 ・Webサービスの開発経験 18

×