UniDic に固有表現やUnicode 絵文字などを足す mecab-unidic-NEologd を公開しました

今年3月中旬 [2015-03-13] に mecab-ipadic-NEologd をリリースして以来、mecab-ipadic-NEologd はとても順調に普及しています。

さて、今回は UniDic に新語や固有表現、Unicode 絵文字などを足すことができる mecab-unidic-NEologd を公開しました。
mecab-ipadic-NEologd を生成する手法を使っています。

https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md

シードデータの性質上、構築されるシステム辞書には国語研短単位の条件を満たさないエントリも入りますので、あらかじめご了承ください。

これを MeCab と一緒に使うと要するにこういうことができます。

$ mecab -d /usr/local/lib/mecab/dic/mecab-unidic-neologd
アップルは Apple Watchを4月24日に国内発売しました。⌚
アップル	アップル	アップル	アップル-apple	名詞-普通名詞-一般
は	ワ	ハ	は	助詞-係助詞
Apple Watch	アップルウォッチ	アップルウォッチ	Apple Watch	名詞-固有名詞-一般
を	オ	ヲ	を	助詞-格助詞
4月24日	シガツニジュウヨッカ	シガツニジュウヨッカ	4月24日	名詞-固有名詞-一般
に	ニ	ニ	に	助詞-格助詞
国内	コクナイ	コクナイ	国内	名詞-普通名詞-一般
発売	ハツバイ	ハツバイ	発売	名詞-普通名詞-サ変可能
し	シ	スル	為る	動詞-非自立可能	サ行変格	連用形-一般
まし	マシ	マス	ます	助動詞	助動詞-マス	連用形-一般
た	タ	タ	た	助動詞	助動詞-タ	終止形-一般
。		。	補助記号-句点
⌚	トケイ	トケイ	時計	記号-一般
EOS


かなり便利そうですよね?!!!!!!!!!!

個人的に UniDic を使用してテキストデータから特徴ベクトルを生成する際や、UniDic を使用してテキストマイニングをする際には、 UniDic と mecab-unidic-NEologd を併用するのがオススメです。

unidic-mecab 2.1.2 との処理結果の差にもご注目ください。

unidic-mecab 2.1.2	     |	mecab-unidic-NEologd
今 いく よ 	     |	今いくよ
絢爛 舞踏 	     |	絢爛舞踏
るみ るみ 	     |	るみるみ
レー カン 	     |	レーカン
この 前 バイト で 化粧 品 選ん で� |	この 前 バイト で 化粧品 選ん でる
今 いくよ くるよ 	     |	今いくよくるよ
ワ カコ 酒 	     |	ワカコ酒
中村 蒼 	     |	中村蒼
俺 ガイ ル 	     |	俺ガイル
で ん ぱ 組 . i n c 	     |	でんぱ組.inc
ボトル の お ぱんつ 	     |	ボトル の おぱんつ
いろは す 		     |	いろはす
北越 紀州 製紙 	     |	北越紀州製紙
メガネ びいき 	     |	メガネびいき
パンチ ライン 	     |	パンチライン


チャンキングなしに上記のように固有表現が得られた方が嬉しい場合もあります。
両方の辞書の出力結果をマージして使った方が良い場合もあります。

mecab-unidic-NEologd は辞書の性能を BCCWJ を使用して、ある程度定量的に評価しようと考えて生成しました。
でも、手元にあるだけでは勿体無いので公開することになりました。

mecab-unidic-NEologd も mecab-ipadic-NEologd と同様に Apache License 2.0 ですし、シードデータは月に最低2回(初旬と中旬)の更新を予定しています。

何かご意見やアドバイスがございましたら、函館で開催される JSAI2015 に行きますのでお声がけ下さい。

参考リンク


- mecab-ipadic-NEologd
-- https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus