@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

JustTechTalk#02 形態素解析のあれやこれや@ジャストシステムに参加しました。

JustTechTalk#02 形態素解析のあれやこれや@ジャストシステム

に参加してきました。 ジャストシステムさんの形態素解析器JMATの話とKagome、Janome、Kuromoji.js、ssslaの開発者の パネルディスカッションでした。

ということで、いつものメモです。

ジャストシステムの形態素解析その2(機械学習編)

  • JMATの話

    • 前回は辞書の話
    • 今回は学習の話
  • 教師あり/教師なし

    • JMATは教師あり
    • 教師なしは研究段階
  • ラティス構造を辞書ベースで構築して、コストの総和が最小の経路を求める

    • 連接、単語生成とか。
  • 学習は3フェーズ
    • ベース、能動、部分アノテーション
    • ベース
      • 300万文のコーパスから1万文のみを利用(なぜ?今から説明)
        • 64GBマシン買ってみたけど、複数実験するには追いつかない
        • オンライン学習がメジャーでない時代に作り始めたので、つかってない
        • CRF学習器を改善
          • 結果として50万文くらいで精度が良くなる
      • 辞書チームからNGがでて、方向転換
    • 方向転換した結果が3つのフェーズらしい
    • ピタジョブに採用?

疑問

  • JMATって、Webの検索の前処理とか分類とかに主に利用するのかな?
  • ATOKでもこのノウハウって利用してるんかな?
  • 辞書もあるらしいけど、辞書更新されると学習器のデータとかどーなるんだろ?

形態素解析器の実装言語Talkについて

  • kuromoji.jsの@takuya-aさん
    • Typed Arrayサポートが高速にできてる理由でもあるらしい
  • Kagomeの@ikawahaさん
    • Goはいろいろないらしい
  • Janomeの@moco_betaさん
  • sssla(茶筌のRuby clone)

  • なんで作ったの?

    • 形態素解析のライブラリはNLPのHelloWorldだから
  • なんで、その言語?
  • その言語で困った点は?
    • Goだと、辞書を内包するのが大変
    • JSは苦労したところしかない(1hくらいしゃべれるぞ!)。基本的なデータ構造とかもない
    • Pythonはパフォーマンスを考えないと
    • Ruby(1.6だったので)もパフォーマンスが
  • その言語を開発するときに必須のものは?

    • Goはとくにない。エディタはどれでもOK
    • browserfy?が便利
  • ほかの人たちの言語をdisってください

    • JSは論外。Pythonのコードフォーマッターが揺れるのが。。。Rubyはバージョンが。。。
    • Goはブラウザで動かない。Pythonもブラウザで動かない。Rubyも(ry
    • ほかのは触ったことないので。。。
    • Pythonは2.xか3.xか決めてくれ!
  • なんで、Kuromojiベースなの?
    • Java読みやすいから。
  • MeCabとKuromojiの違いは?
    • 未知語の処理が結構違う

感想

きれいなロビーで良かったのですが、マイクがあると嬉しかったかもしれません。 前回の辞書の話も聞いてみたかったかも。

Comments