Pyconjp2015 - Python で作って学ぶ形態素解析

Python で作って学ぶ形態素解析
2015/10/11, PyConJP 2015
Tomoko Uchida

Who am I
打田智子 @moco_beta
元：Webサービス企業でPythonエンジニアをしていました
現在：検索エンジン Solr, Elasticsearch 導入支援、運用サポートをしています
（株）ロンウイット所属
普段は主にJ...

目次
Janome 紹介
形態素解析？
Janome を支えるアルゴリズム
Janome の開発ふりかえり
きっかけ・実装の話・チューニング・2系/3系対応
3

Janome とは
http://mocobeta.github.io/janome/
“janome (蛇の目) は, Pure Python で書かれた, 辞書内包の形態素解析器です.”
(venv) $ pip install janom...

特徴とか
辞書、言語モデルは mecab-ipadic-2.7.0-20070801 を使用
だいたいは MeCab と同じ解析結果になります。未知語処理で差
異がでます
Pure Python かつ標準ライブラリのみ使用
環境問わずどこでも動...

形態素解析？
日本語の分かち書き（単語分割）？
惜しい、けどそれだけじゃない
(お約束) Wikipedia 「形態素解析」から
“対象言語の文法の知識（文法のルールの集まり）や辞書（品詞
等の情報付きの単語リスト）を情報源として用い、自然言語...

形態素？？品詞？？
定義は？
そういうモノがあるということでおねがいします m(__)m
気になる方は専門書へ
自然言語処理学会「言語処理学辞典」
コロナ社「自然言語処理の基礎」
7

「すもももももももものうち」
プログラムでどうやって分割しますか？
（よく知っている方はごめんなさい…）
8

すもも / も / もも / も / もも / の / うち
名詞名詞名詞助詞助詞助詞名詞
必要な知識
• 語彙：「すもも」「もも」という名詞、「も」「の」という助詞
• （辞書）
• 日本語らしさ...

辞書と言語モデル
人手で整備
コーパス（学習データ）から教師あり機械学習
一般にはこのハイブリッド
なお素人には無理・・・とまではいわないけどモデルから作るのは大変
Janome は既存の辞書 mecab-i...

Janome で実装したのは、いわゆる解析エンジン部分
辞書引き
解析実行：もっとも「日本語らしい」分割ポイントをさ
がす
11

辞書引き
辞書は、サイズがコンパクトで高速に引けることが必要
ハッシュマップ (Python の dict) でもいいけど、
コモンプレフィックスマッチを使うと辞書引きの回数が減るので効率的
さくら辞書
さ動詞「する」の活用形
さく動詞「...

辞書引き
データ構造・アルゴリズム
パトリシア木 (JUMAN)
ダブル配列 (ChaSen, MeCab)
FST (Kuromoji/Lucene版, Janome)
http://taku910.github.io/mecab/
http...

FST ?
Finite State Transducers (決定性有限オートマトンの一種)
正確には Minimal Acyclic Subsequential Transducers
入力のプレフィックス・サフィックス両方を共有するの
で...

図解FST
小さな辞書エントリ
{ ‘apr’: ’30’,‘aug’: ’31’,‘dec’: ’31’,  
‘feb’: [’28’, ’29’],‘jan,’: ’31’,‘jul’: ’31’,‘jun’: ’30’ }
という, ７...

（略）
続きはwebで
http://mocobeta-backup.tumblr.com/post/111076688132/lucene-fst-1
20

FST
余談1：Java 製検索エンジン Apache Lucene 4系で単語辞書や
クエリエンジンとして採用されました
余談2：Janome は Lucene の実装を一部参考にしています
22

解析
「日本語らしさ」を計算する
23

解析
「すもももももももものうち」（ふたたび）の区切り方はたくさんある
1.すもも / も / もも / も / もも / の / うち
2.すもも / も / もも / もも / も / の / うち
3.すもも / もも / も / もも ...

解析
候補のなかから、一番日本語らしいパターンを選ぶ
1. すもも / も / もも / も / もも / の / うち
2. すもも / も / もも / もも / も / の / うち
「2. より1.のほうが自然」を計算で求めるには？
名...

解析
言語モデル（隠れマルコフモデル）
「ある単語の出現しやすさ」（確率）
「前後の品詞のつながりやすさ」（確率）
確率をコスト値と読み換えれば足し算で「分割パターンの
日本語らしさ」を評価できる
26

解析
確率モデルにもとづき、一番「もっともらしい並び」を求
める効率的なアルゴリズム
ビタビアルゴリズム（動的計画法の一種）
書籍/講義資料など解説多数
「自然言語処理の基礎」
おすすめ

Janome 開発ふりかえり
たまに、どのくらいの期間で開発したのか聞いてくださる方がいるので、Github リポ
ジトリ (https://github.com/mocobeta/janome) のコミット履歴を追ってみた
2015/1/20...

開発のきっかけ
Q: ところでなんで作ろうと
思ったの
A: 形態素解析器の実装は自然
言語処理の 101 です ^^ 
(by @ikawaha)
(kuromoji.js 作者)
(kagome 作者)
もしかして: 流行ってる…?(違)

FST & 内包システム辞書の実装
ここができれば終ったようなもの！
（たぶん）
FST（オートマトン）は「辺の集ま
り」とみてバイト配列に落としこむ
(Apache Lucene 方式)
string は encode(), decode()...

FST & 内包システム辞書の実装
mecab-ipadic の辞書エントリをFST（バイト配列）にしてバ
イナリデータとして保存
辞書エントリの詳細情報（品詞、活用形、読み、etc.）
はFSTとは別ファイルにもつ
連接コスト(品詞の接続コス...

辞書サイズ
初期リリース時は 20MB
0.2 系で少し小さくなって 13MB
TODO: インストールのときに、ソース埋め込みの辞書をプリコンパイル
するところでメモリ3-4GB必要
とりあえずいくつか試したやり方の中で一番速かったんだ…
自...

プロファイルをとって遅いところを特定して、慣れないなりに試行錯誤してみる
（遅いところ１）辞書引き（FSTの検索）が実行時間の半分を占める
キャッシュを入れたり（ここはFSTの実装がいまいちだからかな）
オブジェクト生成をやめていろいろ Tu...

2系/3系対応
最初のリリース時は3系のみ
市場(?)の反応：「2系は…」（ですよねー
(janome の場合) string, bytes の非互換だけ慎重に対応すれ
ば、あとは簡単な置き換えで済んだ
2系対応版をとりあえず別パッケージで公...

2系/3系対応
別パッケージに分かれていた2系/3系のパッケージをひとつ
にマージする神PRをいただき、無事統合
ありがとうございます！

おわり
“これなら自分もオレオレ形態素解析器作れそう”
と思っていただけましたでしょうか
(エンジン部分ならね!)

MeCab (C++) のクローン、またはMeCab辞書(モデル)を借用し
ている形態素解析器あれこれ
Igo (Java), igo-python (Python), igo-ruby (Ruby), 
igo-javascript (Jav...

Appendix：歴史について少しだけ
（株）ジャストシステムさまからお借りしました
JastTechTalk #02 形態素解析の実装言語Talk
http://www.slideshare.net/JSUXDesign/jtt4
38

Appendix：歴史について少しだけ
より詳しくはこちらを：
https://web.archive.org/web/20130123204941/https://
www.ipa.go.jp/event/ipaforum2007/progr...

JustTechTalk !
日本語の言語処理といえば、のジャストシステム社が開催
している自然言語処理や機械学習などなどの勉強会
言語処理・機械学習に興味がある方はグループに入ろ
うヽ(*´∇｀)ﾉ
DoorKeeper：https://j...

ありがとうございました

Pyconjp2015 - Python で作って学ぶ形態素解析

Tomoko Uchida

Pyconjp2015 - Python で作って学ぶ形態素解析

A particular slide catching your eye?