Public
形態素解析の分野適応は、「点推定+(部分)アノテーション」と「品詞付き単語追加」でどう違うのかという疑問を持ったので、それをつぶやいたところ、@zzzelch氏とちょっとした議論になりました。最後には「品詞が必要のないタスクにとって、品詞付けは必要ない、無駄だ」というラディカルな意見をいただいたのですが、本当にそうなのでしょうか?たとえその応用に品詞が必要なくても、アノテーションにはなんらかの品詞(体系)は必要ではないでしょうか。すなわち、単語分割の作業を品詞を意識せず遂行すること、もしくは品詞という言葉を使わずして単語分割を定義することは、不可能なのではないでしょうか?
これまでの日本語形態素解析システムは、例外なく品詞体系+辞書+コーパスで構成されています。増岡田窪体系+京都コーパス、IPA品詞体系+RWCPコーパス、unidic+BCCWJといった具合です。コーパス作成、辞書作成、品詞体系の設計は表裏一体であり、それらの開発は同時に行われてきました。今の今まで単語分割だけのコーパスは存在していないはずです。その理由として(これは憶測でありますが)
現実的にそのような単語分割コーパスを高い一貫性のまま作成するのが難しいからでしょう。@zzzelch氏に「作業者に品詞体系を理解させるのは難しい」という反論をいただいたのですが、例えば「社員証」の「証」が接尾辞であること(すなわち最低限の品詞体系)を知らずに「社員」と「証」に分割させることは難しいと思います。
Kyteaの分野適用の実験も、BCCWJの単語分割を使ったシミュレーションにすぎません。BCCWJの元となるunidicの品詞体系を知った全知全能の作業者が、なんの誤りもなく単語分割を行ったという想定での実験ですが、現実離れしていると思います。実際の作業はもっと泥臭いものです。単語単位の認定には、品詞体系の理解、対象となる単語の品詞情報、品詞レベルでのつながりの妥当性や似た現象との
一貫性の判断が必要です。全知全能の作業者なら「そらで」それができますが、普通の人はまず無理です。そこで、品詞、品詞体系、辞書といった言語化された情報を参照しながら作業することなります。さらに、作業中に品詞体系にバグを見つければ、それを修正後そのバグに関連するアノテーションを修正する必要があります。単語分割だけのコーパスでは手がかりがないのでアノテーション後の修正が難しくなります。(実際に、RWCP/ipadicは、松本先生が品詞体系を修正後、RWCPコーパスを機械的にアップデートするということを 頻繁に行なっていました。)
仮に単語分割コーパスができたとしても、我々はそこから何が分かるのでしょうか? 機械学習研究者の研究の道具にはなるかもしれませんが、単語単位の指針や判断に有益な品詞情報が言語化されてないものから、どうやって別の人に作業を引き継げばいいのでしょうか? 分野適応なんてなおさらです。
単語分割*だけ*をやりたいのであれば、教師なし学習がいいと思います。めんどくさい品詞体系なんかを言語化する必要がありませんから。
これまでの日本語形態素解析システムは、例外なく品詞体系+辞書+コーパスで構成されています。増岡田窪体系+京都コーパス、IPA品詞体系+RWCPコーパス、unidic+BCCWJといった具合です。コーパス作成、辞書作成、品詞体系の設計は表裏一体であり、それらの開発は同時に行われてきました。今の今まで単語分割だけのコーパスは存在していないはずです。その理由として(これは憶測でありますが)
現実的にそのような単語分割コーパスを高い一貫性のまま作成するのが難しいからでしょう。@zzzelch氏に「作業者に品詞体系を理解させるのは難しい」という反論をいただいたのですが、例えば「社員証」の「証」が接尾辞であること(すなわち最低限の品詞体系)を知らずに「社員」と「証」に分割させることは難しいと思います。
Kyteaの分野適用の実験も、BCCWJの単語分割を使ったシミュレーションにすぎません。BCCWJの元となるunidicの品詞体系を知った全知全能の作業者が、なんの誤りもなく単語分割を行ったという想定での実験ですが、現実離れしていると思います。実際の作業はもっと泥臭いものです。単語単位の認定には、品詞体系の理解、対象となる単語の品詞情報、品詞レベルでのつながりの妥当性や似た現象との
一貫性の判断が必要です。全知全能の作業者なら「そらで」それができますが、普通の人はまず無理です。そこで、品詞、品詞体系、辞書といった言語化された情報を参照しながら作業することなります。さらに、作業中に品詞体系にバグを見つければ、それを修正後そのバグに関連するアノテーションを修正する必要があります。単語分割だけのコーパスでは手がかりがないのでアノテーション後の修正が難しくなります。(実際に、RWCP/ipadicは、松本先生が品詞体系を修正後、RWCPコーパスを機械的にアップデートするということを 頻繁に行なっていました。)
仮に単語分割コーパスができたとしても、我々はそこから何が分かるのでしょうか? 機械学習研究者の研究の道具にはなるかもしれませんが、単語単位の指針や判断に有益な品詞情報が言語化されてないものから、どうやって別の人に作業を引き継げばいいのでしょうか? 分野適応なんてなおさらです。
単語分割*だけ*をやりたいのであれば、教師なし学習がいいと思います。めんどくさい品詞体系なんかを言語化する必要がありませんから。
Add a comment...