20180609 chainer meetup_es_pnet

ESPnet: End-to-End Speech
Processing Toolkitの紹介
株式会社レトリバ
西鳥羽二郎

西鳥羽二郎
• 研究開発@株式会社レトリバ
• 音声認識
• 自然言語処理
• 趣味
• 全都道府県を旅行
• 日本の世界遺産を観光

音声認識
テキスト化
テキスト化
こんにちは…
もしもし…

音声認識の活用例
• 音声アシスタント
• 音声検索
• スマートスピーカー
• ロボット操作
• etc…

便利なシチュエーション
• 「少し寝たっぽいから、テレビつけてみよ」
（しばしして）
「あら、泣きはじめた…!」
（抱っこ）
（テレビ消したい…が、手がふさがっている…!）
「オッケーグーグル、...

Kei Shiratsuchi, レトリバセミナー

音声認識の精度
10年間の停滞
Li Deng, Deep Learning from Speech Analysis/Recognition to Language/Multimodal Processing
Deep Learningによ
...

標準的な音声認識の処理の流れ
音声データ
特徴ベクトル
特徴抽出
HMMの状態
単語列
Gaussian Mixture Model(GMM)による推定
デコード

Kaldi
• オープンソースの音声認識ソフトウェア
• データの取得から音声認識後の精度測定までを一気通貫して行える
• 話し言葉コーパス(CSJ)もあり、日本語も試せる
• 各ステップで様々な手法が用意されており、組み合わせることが可能
•...

音声認識とDeep Learning 第一世代
音声データ
特徴ベクトル
特徴抽出
HMMの状態
単語列
GMMによる推定 DNNによる推定
デコード
Kaldiに独自にDeep
Learningフレームワー
クが搭載される

音声認識とDeep Learning 第二世代
音声データ
特徴ベクトル
特徴抽出
HMMの状態
単語列
DNNによる推定
デコード(N-gram言語モデル RNN言語モデル)
KaldiにRNN言語モデル
が搭載される

音声認識とDeep Learning 第三世代
音声データ
特徴ベクトル
特徴抽出
HMMの状態
単語列
DNNによる推定
デコード(RNN言語モデル)
音声データ
特徴ベクトル
特徴抽出
単語列
(Bi-)LSTMによる推定
文字(音素)の
...

音声認識とDeep Learning 第四世代
音声データ
特徴ベクトル
特徴抽出
単語列
(Bi-)LSTMによる推定
文字(音素)の
推定
デコード
音声データ
特徴ベクトル
特徴抽出
単語列
Encoder-Decoderモデルに
よるE...

Deep Learningフレームワークで音声認識
ここまでニューラルネットワークならばDeep
Learningフレームワークで実装したら良いのでは?
Deep Learningフレームワークでは
対応できない処理が煩雑

学習データの煩雑さ
音声データ
特徴ベクトル
特徴抽出
単語列
Encoder-Decoder
モデルによるEnd-
to-endなシステム
一つの音声データから数十～数百の学習データ
が作成される
数秒～20秒程度に区切るため特徴ベクトル及び...

前処理の煩雑さ
音声データ
特徴ベクトル
特徴抽出
単語列
Encoder-Decoder
モデルによるEnd-
to-endなシステム
1. 音声ファイル(WAV, mp3)の読み込み
2. プリエンファシスフィルタの適用
3. Short ...

ESPnet: End-to-End Speech Processing Toolkit
• Kaldiと連携
• データ取得
• データ加工
• 特徴抽出
• Deep Learning framework
• Chainer
• Pytor...

KaldiとChainer(及びPytorch)との連携

Chainer and Pytorch support
Chainer Pytorch
Performance ◎ ○
Speed ○ ◎
Multi-GPU 対応対応
VGG-like encoder 対応非対応
RNN言語モデル対応 ...

サポートしているデータセット
• 英語
• Wall Street Journal読み上げコーパス
• Librispeech
• etc.
• 日本語
• 日本語話し言葉コーパス(CSJ)
• 中国語
• HKUST Telephone sp...

日本語話し言葉コーパス(CSJ)での音声認識
• git clone http://github.com/espnet/espnet.git
• cd espnet/tools
• make
• cd ../egs/csj/asr1
• (エデ...

結果の表示例
間違っている
場所の表示
正解
推測
正解及び、置換、
削除、挿入による
エラーの数

詳しく知りたい方へ
※arxivにもあります https://arxiv.org/abs/1804.00015

詳しく知りたい方へ
• githubのレポジトリ: https://github.com/espnet/espnet
• ドキュメント: https://espnet.github.io/espnet/

まとめ
• Chainerな方へ
• Chainerで組んだモデルで音声認識を試せます
• 音声認識な方へ
• Kaldiと同じ感覚でEncoder-Decoderモデルの音声認識が試せます

We are hiring!
• 音声認識の研究開発をしたい人を募集しています!!

20180609 chainer meetup_es_pnet

Jiro Nishitoba