JustTechTalk#02 形態素解析のあれやこれや@ジャストシステム
に参加してきました。 ジャストシステムさんの形態素解析器JMATの話とKagome、Janome、Kuromoji.js、ssslaの開発者の パネルディスカッションでした。
ということで、いつものメモです。
ジャストシステムの形態素解析その2(機械学習編)
JMATの話
- 前回は辞書の話
- 今回は学習の話
教師あり/教師なし
- JMATは教師あり
- 教師なしは研究段階
ラティス構造を辞書ベースで構築して、コストの総和が最小の経路を求める
- 連接、単語生成とか。
- 学習は3フェーズ
- ベース、能動、部分アノテーション
- ベース
- 300万文のコーパスから1万文のみを利用(なぜ?今から説明)
- 64GBマシン買ってみたけど、複数実験するには追いつかない
- オンライン学習がメジャーでない時代に作り始めたので、つかってない
- CRF学習器を改善
- 結果として50万文くらいで精度が良くなる
- 辞書チームからNGがでて、方向転換
- 300万文のコーパスから1万文のみを利用(なぜ?今から説明)
- 方向転換した結果が3つのフェーズらしい
- ピタジョブに採用?
疑問
- JMATって、Webの検索の前処理とか分類とかに主に利用するのかな?
- ATOKでもこのノウハウって利用してるんかな?
- 辞書もあるらしいけど、辞書更新されると学習器のデータとかどーなるんだろ?
形態素解析器の実装言語Talkについて
- kuromoji.jsの@takuya-aさん
- Typed Arrayサポートが高速にできてる理由でもあるらしい
- Kagomeの@ikawahaさん
- Goはいろいろないらしい
- Janomeの@moco_betaさん
sssla(茶筌のRuby clone)
なんで作ったの?
- 形態素解析のライブラリはNLPのHelloWorldだから
- なんで、その言語?
- その言語で困った点は?
- Goだと、辞書を内包するのが大変
- JSは苦労したところしかない(1hくらいしゃべれるぞ!)。基本的なデータ構造とかもない
- Pythonはパフォーマンスを考えないと
- Ruby(1.6だったので)もパフォーマンスが
その言語を開発するときに必須のものは?
- Goはとくにない。エディタはどれでもOK
- browserfy?が便利
ほかの人たちの言語をdisってください
- JSは論外。Pythonのコードフォーマッターが揺れるのが。。。Rubyはバージョンが。。。
- Goはブラウザで動かない。Pythonもブラウザで動かない。Rubyも(ry
- ほかのは触ったことないので。。。
- Pythonは2.xか3.xか決めてくれ!
- なんで、Kuromojiベースなの?
- Java読みやすいから。
- MeCabとKuromojiの違いは?
- 未知語の処理が結構違う
感想
きれいなロビーで良かったのですが、マイクがあると嬉しかったかもしれません。 前回の辞書の話も聞いてみたかったかも。