科学技術が“trial and error”によって進展してきたことは間違いありません。この“trial and error”を科学技術の効率的な発展につなげるためには、偶然の産物を求めた無作為な試行の繰り返しではなく、「errorを深く分析し次の有効なtrialにつなげる」プロセスが重要であると我々は考えています。 自然言語処理の技術は、様々な応用を目指して進んできました。1960年代には対話技術が、70年代には情報検索技術が、80年代には情報抽出、要約技術が、2000年頃からは質問応答が盛んに研究されてきましたが、それらすべての応用システムの精度は60%程度まで達成した後にそれ以上の精度向上が見られないまま、新たな応用を求めて移ろって来たという歴史があります。90年代から始まった大規模なコーパスを元にした経験的な手法により新たな展開が生まれ、統計手法や機械学習を巻き込み発展してきた事は事実ですが、未だ60%の精度の先に必要とされているものの正体がきちんと見えているとは言いがたい状況です。
そこで、この問題の正体を明らかにするために、様々な言語処理技術においてしっかりとしたエラー分析を行い、次に対処すべき課題を明確にする事は非常に重要だと思います。言語処理技術の各領域においてエラー分析はこれまでも個別の研究の一部として個々の研究者が行ってきていますが、そのほとんどは特定のタスクにおける特定のシステム・手法を対象とするもので、システム・手法に固有の問題が混在した形で課題が明らかにされてきただけでした。このプロジェクトでは、それぞれのタスクについて複数のシステムでエラー分析を行う事で、そのタスクにおいて共通に重要な問題点を明らかにしていきたいと考えます。また、1つのタスクだけではなく、多くのタスクのエラー分析を同時に行う事で自然言語処理全体における問題点の列挙ができるものと考えます。このような大規模なエラー解析は過去に経験がなく、どのような結果が得られるのかやってみないと分からない部分もありますが、今後の自然言語処理研究の方向性を決めるために重要なデータになる事は間違いないと思われます。一人でも多くの研究者に今回のワークショップに参加していただき、自然言語処理研究における次なる展開につなげていくことを期待しています。 |