言語処理学会第24回年次大会ワークショップ
形態素解析の今とこれから
「形態素解析だョ!全員集合」
開催趣旨
単語分割・形態素解析技術は、日本語を対象にした自然言語処理研究・開発において避けて通れない処理として認識されており、これまで、数多くの辞書・システムが開発されてきました。ユーザの選択肢が増えた利点はあるものの、既存の形態素解析器・辞書・品詞体系から、応用に則したシステムを選択することは、言語処理研究者でも難しく、なんとなく新しそうだから、研究室の方針だから、先輩が使っていたからといった、場当たり的な基準で選択されていることが少なくありません。本ワークショップでは、単語分割・形態素解システム、辞書の開発者にお集まりいただき、各システムの特徴、開発方針、想定ユーザ、他のシステムとの違いを明らかにすると共に、応用処理と形態素解析システムとのベストマッチングを支援することを目的としています。また、ニューラルネットワーク言語処理におけるサブワード化のように、単語分割そのものの必要性が揺らぎつつある現状を踏まえ、再度、単語分割・形態素解析の研究・応用における立ち位置をみなさんで議論したいと思います。
News
発表申込の受付を開始しました.こちらのフォームからお願いします
スケジュール
- 発表申込受付開始:2018/01/11
- 発表申込受付締切:2018/2/28
- プログラム公開:2018/3/5
- ワークショップ:2018/3/16(金)
プログラム (詳細なタイムテーブルはTBD)
開催趣旨 (5分)
開発者からの発表 (15分 x 7)
- JUMAN/JUMAN++
- MeCab
- KyTea
- Sudachi
- 雪だるま
- BCCWJ/UniDic
- NEologd
一般発表 (特にユーザからのフィードバックを募集)
ライトニングトーク (5分 x XX)
招待講演 (45分)
タイトル: 形態素解析辞書で曖昧性解消に挑む
講演者:坂本美保氏
所属: 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所
概要:
形態素解析の基本機能は、文を形態素に分割し各々の形態素の品詞を判別することだが、自然言語処理を必要とするアプリケーションに応用するとなると、さらに詳細な語句認識が求められることが多い。例えば、異なる表記でも同じ語(表記揺れ)であると認識したり、あるいは同じ表記でも異なる語(同表記異義語)であると認識できること等が期待される。本発表では、これまで様々なアプリケーションの辞書開発に携わってきた筆者の経験を元に、アプリケーションへの応用を前提とした形態素解析辞書の構築ノウハウについて紹介する。基本的な語彙から応用先の機能に関連性の高い語彙に至るまで、どのように採否を決定し情報付けを行うか、具体例とともに紹介する。また最後に、当社で開発した最新の形態素解析器Sudachiの辞書データについて、その特色を簡単に紹介する。
講演者略歴:
1990年~2015年 株式会社ジャストシステム 勤務
2017年~ 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所 勤務
パネルディスカッション
トピック (TBD)
- ニューラル End-to-End 時代の基礎解析研究・開発のあり方
- 辞書が先かコーパスが先か論争
- 応用と形態素解析システムのマッチング
- 実応用で必要とされている機能の洗い出し
発表申し込み
こちらのフォームから受け付けています.
参加申し込み
年次大会参加費にワークショップ参加費が含まれます。年次大会へのお申し込みをお願いいたします。
開催情報
会場:岡山コンベンションセンター(ママカリフォーラム)
所在地:〒700-0024 岡山県岡山市北区駅元町 14 番 1 号
JR 岡山駅 中央改札口から徒歩約 3 分(地図)
オーガナイザ
- 工藤 拓 (グーグル)
- 河原 大輔 (京都大学)
- 山本 和英 (長岡技術科学大学)
- 森 信介 (京都大学)
- 持橋 大地 (統計数理研究所)
- 鍜治 伸裕 (ヤフー)
- 颯々野 学 (ヤフー)
- 小木曽 智信 (国立国語研究所)
- 斉藤 いつみ (NTT)
- 内海 慶 (デンソーアイティーラボラトリ)
- 岡 照晃 (国立国語研究所)
- 高岡 一馬 (ワークスアプリケーションズ)
- 佐藤 敏紀 (LINE)