Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20180609 chainer meetup_es_pnet

306 views

Published on

2018年6月9日のChainer Meetupで話した資料です。
ESPnetの紹介です。

Published in: Software
  • Be the first to comment

  • Be the first to like this

20180609 chainer meetup_es_pnet

  1. 1. ESPnet: End-to-End Speech Processing Toolkitの紹介 株式会社レトリバ 西鳥羽 二郎
  2. 2. 西鳥羽 二郎 • 研究開発@株式会社レトリバ • 音声認識 • 自然言語処理 • 趣味 • 全都道府県を旅行 • 日本の世界遺産を観光
  3. 3. 音声認識 テキスト化 テキスト化 こんにちは… もしもし…
  4. 4. 音声認識の活用例 • 音声アシスタント • 音声検索 • スマートスピーカー • ロボット操作 • etc…
  5. 5. 便利なシチュエーショ ン • 「 少し 寝たっ ぽいから 、 テレビつけてみよ」 ( し ばし し て) 「 あら 、 泣き はじ めた…!」 ( 抱っ こ ) ( テレビ消し たい…が、 手がふさ がっ ている…!) 「 オッ ケーグーグル、 テレビ消し て!」 Kei Shiratsuchi, レトリバセミナー
  6. 6. Kei Shiratsuchi, レトリバセミナー
  7. 7. 音声認識の精度 10年間の停滞 Li Deng, Deep Learning from Speech Analysis/Recognition to Language/Multimodal Processing Deep Learningによ り劇的な精度向上
  8. 8. 標準的な音声認識の処理の流れ 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 Gaussian Mixture Model(GMM)による推定 デコード
  9. 9. Kaldi • オープンソースの音声認識ソフトウェア • データの取得から音声認識後の精度測定までを一気通貫して行える • 話し言葉コーパス(CSJ)もあり、日本語も試せる • 各ステップで様々な手法が用意されており、組み合わせることが可能 • 音声認識の研究では標準ツール
  10. 10. 音声認識とDeep Learning 第一世代 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 GMMによる推定 DNNによる推定 デコード Kaldiに独自にDeep Learningフレームワー クが搭載される
  11. 11. 音声認識とDeep Learning 第二世代 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 DNNによる推定 デコード(N-gram言語モデル RNN言語モデル) KaldiにRNN言語モデル が搭載される
  12. 12. 音声認識とDeep Learning 第三世代 音声データ 特徴ベクトル 特徴抽出 HMMの状態 単語列 DNNによる推定 デコード(RNN言語モデル) 音声データ 特徴ベクトル 特徴抽出 単語列 (Bi-)LSTMによる推定 文字(音素)の 推定 デコード KaldiのDeep Learning フレームワークでは対 応できなくなってくる
  13. 13. 音声認識とDeep Learning 第四世代 音声データ 特徴ベクトル 特徴抽出 単語列 (Bi-)LSTMによる推定 文字(音素)の 推定 デコード 音声データ 特徴ベクトル 特徴抽出 単語列 Encoder-Decoderモデルに よるEnd-to-Endなシステム KaldiのDeep Learning フレームワークでは対 応できなくなってくる
  14. 14. Deep Learningフレームワークで音声認識 ここまでニューラルネットワークならばDeep Learningフレームワークで実装したら良いのでは? Deep Learningフレームワークでは 対応できない処理が煩雑
  15. 15. 学習データの煩雑さ 音声データ 特徴ベクトル 特徴抽出 単語列 Encoder-Decoder モデルによるEnd- to-endなシステム 一つの音声データから数十~数百の学習データ が作成される 数秒~20秒程度に区切るため特徴ベクトル及び 正解ラベルともに長さ不揃いの系列データが大 量に作成される
  16. 16. 前処理の煩雑さ 音声データ 特徴ベクトル 特徴抽出 単語列 Encoder-Decoder モデルによるEnd- to-endなシステム 1. 音声ファイル(WAV, mp3)の読み込み 2. プリエンファシスフィルタの適用 3. Short term Fourier transform 1. フレームの分割 2. 窓関数の適用 3. Fast Fourier Transformの適用 4. メルフィルタバンクの適用 5. ケプストラム分析 6. 離散コサイン変換 • その他 必要に応じて信号処理多数
  17. 17. ESPnet: End-to-End Speech Processing Toolkit • Kaldiと連携 • データ取得 • データ加工 • 特徴抽出 • Deep Learning framework • Chainer • Pytorch
  18. 18. KaldiとChainer(及びPytorch)との連携
  19. 19. Chainer and Pytorch support Chainer Pytorch Performance ◎ ○ Speed ○ ◎ Multi-GPU 対応 対応 VGG-like encoder 対応 非対応 RNN言語モデル 対応 対応 Attention types 3種(no attention, dot, location) 12種 (multihead attention 含む)
  20. 20. サポートしているデータセット • 英語 • Wall Street Journal読み上げコーパス • Librispeech • etc. • 日本語 • 日本語話し言葉コーパス(CSJ) • 中国語 • HKUST Telephone speech • その他含め全16データセット
  21. 21. 日本語話し言葉コーパス(CSJ)での音声認識 • git clone http://github.com/espnet/espnet.git • cd espnet/tools • make • cd ../egs/csj/asr1 • (エディタでCSJのおいてあるディレクトリ設定を修正) • ./run.sh • 精度の算出 • 個別の結果出力
  22. 22. 結果の表示例 間違っている 場所の表示 正解 推測 正解及び、置換、 削除、挿入による エラーの数
  23. 23. 詳しく知りたい方へ ※arxivにもあります https://arxiv.org/abs/1804.00015
  24. 24. 詳しく知りたい方へ • githubのレポジトリ: https://github.com/espnet/espnet • ドキュメント: https://espnet.github.io/espnet/
  25. 25. まとめ • Chainerな方へ • Chainerで組んだモデルで音声認識を試せます • 音声認識な方へ • Kaldiと同じ感覚でEncoder-Decoderモデルの音声認識が試せます
  26. 26. We are hiring! • 音声認識の研究開発をしたい人を募集しています!!

×
Save this presentationTap To Close