スラッシュドット    はてなブックマーク  Yahoo!ブックマークに登録  印刷

開発元のムーターに聞く

辞書不要の形態素解析エンジン「マリモ」とは

2007/08/15

 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。

統計処理で単語部分を推定

 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。

 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

mooter01.jpg ムーター 取締役社長の稲村尚志氏。弱冠21才で創業。今後はテキスト検索だけでなく、画像検索でも従来にない技術やサービスを開発したいと話す

 「現在の形態素解析エンジンには2つの課題がある」と話すのは、ムーター創設者で取締役社長の稲村尚志氏だ。1つは辞書ベースのアプローチでは、日々現れる新語や新しいキーワードを拾いきれないこと。もう1つの課題は口語に弱いこと。ネット上のテキストコンテンツは単なる検索の対象となるだけでなく、今ではコンテンツマッチや評判分析などマーケティング情報として意味を持ち始めている。そうした現在、掲示板やブログ、SNSサイトで交わされる口語日本語を、いかに解析するかは大きな課題だ。

 マリモでは、「〜している」など、文の構造を解析するのに役立つ補助動詞や助詞など約1000語からなる辞書だけを持つ。実際の形態素解析に用いる辞書(従来の意味での辞書と異なるため、ムーターは「学習モデル」と呼ぶ)は、ネット上のテキストを収集し、そこから自動生成する。このため、「着ごえは気持ち悪い」という文に現れる「着ごえ」(着声)という新語も、「着メロ」「着うた」という語彙(ごい)からの類推で、正しく名詞として認識できる。従来の形態素解析エンジンでは「着(動詞)/ご(接頭辞)/え(感動詞)」と誤認識される可能性が高いという。

 マリモは、あらかじめ動詞や形容詞の活用形についての知識を持たず、頻度情報と位置情報を使った統計処理だけで、どの音のつながりが単語で、その単語が動詞であるか形容詞であるかまで判定するという。「処理対象となるテキストの文を、1文字ごと、2文字ごと、3文字ごとと10文字単位になるまで、すべての組み合わせを解析します。漢字部分以外は、すべてローマ字に変換して行うため、母音と子音の組み合わせから新語の品詞が推定できます」(テクノロジー部門担当執行役 田中優氏)。例えば「かっこいい」「かわいい」などの形容詞があることから「ナウい」という語を認識できるのだという。また、ローマ字による音処理の副産物として、「ウインドウズ」と「ウィンドウズ」などカタカナ用語の表記の揺れに強いという特徴もある。

 既存の語彙にとらわれないため、新語に限らず、未知語の認識に強い。例えば、「みゃーさんもおっしゃるように」というハンドル名を使った文では、「みゃー」の部分が人名であることを認識し、「絶対にやったります!」という文では、「やったり」を「やったる」という動詞の連用形として認識する。

既存のエンジンとは異なる性格

 検索エンジンの世界では、アジア系の言語にも強い米ベイシス・テクノロジーの形態素解析エンジン、「Rosette」(ロゼッタ)が高いシェアを持っている。グーグル、ヤフー、goo、マイクロソフトのLive Searchなど、メジャーな検索サイトで採用されている。「われわれムーターのマリモでは、形態素に分割する精度は95%程度。すでに十分高いですが、高度な形態素解析エンジンでは98%と、もっと高い。精度では勝てない」(稲村氏)。既存の形態素解析エンジンと真っ向から勝負する気は、稲村氏らにはない。新語や専門用語など、それぞれのユーザーニーズに合わせた文章に特化して自動チューンできる形態素解析エンジン、というのがウリだ。ライセンス料も1CPU当たり100万円からと、既存製品に比べると半値程度だ。「品詞判定の精度は現在80%。これを90%までに上げるのが目標です」(田中氏)。今後は係り受けなど、高度な文法解析を採り入れる予定という。

mooter03.png ムーターは検索結果を分類して表示するクラスター検索サービスを提供している

 ムーターは、もともと検索サイトベンチャーの豪Mooterと提携する形で稲村氏が日本に持ち込み、2005年2月に設立したベンチャー企業だ。その後、本国オーストラリアのMooterはコンテンツマッチ方面に注力するようになり「コンテンツではなくテクノロジーで勝負したかった」という稲村氏は、本社と袂を分かつ。検索結果をジャンルごとに分類して表示するクラスターエンジンや携帯向けのカテゴリー別検索エンジンの開発を進めるうちに、本社から買い取った形態素解析エンジンへの不満が募り、2007年4月に自社開発の形態素解析エンジン「マリモ」の開発に着手したという。

関連リンク

(@IT 西村賢)

情報をお寄せください:

アイティメディアの提供サービス

ホワイトペーパー(TechTargetジャパン/閲覧には会員登録が必要です)

スキルアップ/キャリアアップ(JOB@IT)


- PR -

お勧め求人情報

キャリアアップ 〜JOB@IT
@IT Special -PR-
  New! 組み込みテストで品質向上&コスト削減
ソフトウェアテスト夏ゼミ 7/24開催!

  New! 内部統制2年目 その対策で本当に大丈夫?
監査法人がポイントを解説!【7/24無料】

  New! マルチコアのパワーを最大限に引き出す
「並列化アプリ」開発ツールを試そう!

  New! コスト削減も品質のひとつ!
最適化された太陽光発電システムとは?

  New! ITエンジニアよ、感度と柔軟さを持て!
〜エンジニア・キャリア進化論(第20回)〜

  New! サーバー増での電力問題に悩む担当者へ
電力コストも削減するサーバー選びのコツ

  New! “SSD”も“仮想化”も万全! 究極の
「超簡単ストレージ管理法」とは?

  New! VMware vSphere 4はどう早くなったのか?
飛躍的な高速化を実現した4つのワケとは

  New! 「1日以上」かかったクエリが「1秒に」!
TCOを削減するDBチューニング術とは?

  New! eBayで使われているMySQLは特殊な用途?
誤解だらけのオープンソースソフトウェア

  100年、4000棟の省エネを進めてきた実績
40%もの省エネを実現できる理由とは…

  コスト削減、CO2排出量削減、かつ高信頼
クラウド時代のデータセンターはこれ!

  計画策定だけでなく、実践から教育まで―
100年間のノウハウが詰まったBCPとは?

  スピーディで機動力のあるビジネスを
低コストなモバイル通信がカギを握る!

ソリューションFLASHPR