今日のre:Inventで音声合成サービスのAmazon Pollyが発表されました。
Amazon Polly – 文章から音声へ、47の声と24の言語 | Amazon Web Services ブログ
Pollyが凄いのは、AWS CLIで簡単に音声合成がされるということです。しかも、お値段は月500万字までは無料で、その後も$0.000004/文字と非常に安く、本一冊で$2.4くらいという驚異的な安さです。
$ aws polly synthesize-speech \ --output-format mp3 --voice-id Joanna \ --text "Hello my name is Joanna." \ joanna.mp3
また、サポートしている言語数も2016/12/01現在で、ヨーロッパ言語を中心に以下の24言語をサポートしています。
- アイスランド語
- イタリア語
- ウェールズ語
- オランダ語
- スウェーデン語
- スペイン語 (カスティリヤ)
- スペイン語 (米国)
- デンマーク語
- トルコ語
- ドイツ語
- ノルウェー語
- フランス語
- フランス語 (カナダ)
- ポルトガル語
- ポルトガル語 (ブラジル)
- ポーランド語
- ルーマニア語
- ロシア語
- 日本語
- 英語 (インド)
- 英語 (ウェールズ)
- 英語 (オーストラリア)
- 英語 (米国)
- 英語 (英国)
日本語も聞いていて結構自然に聞こえており、ちょいちょい単語の認識に失敗するときは変なアクセントになりますが、レキシコンで単語を登録すれば自分で改善もできそうです。 サンプル音声はこんな感じです。
chezou.tumblr.comで、Mediumなんかの記事の中に面白い記事をよく見るのですが、英文だとなかなか途中で挫折するので、音声にすれば聞くんじゃないかと思い、記事を音声に変換するコードをRubyで書いてみました。 以下にコードがあります。
ポイントとしては、幾つか重要な制約があります。
詳細は以下を参考にしてください。 docs.aws.amazon.com
実際には、ちょうどHckr newsで見つけた以下の記事の音声を聞いてみました。意外と聞けます。
How the Circle Line rogue train was caught with data
もうちょっと頑張ってRSSを取得すれば、特定のサイトの最新の記事の音声を生成して、Dropboxに保存した音声をモバイルから再生するということもできそうですね。
正直、安くて多言語でそれなりに自然で何よりAPIが使いやすいということで、既存の日本の音声合成を頑張ってきた企業は大変だなぁという気持ちになりますが、いろいろな使い方ができそうで楽しみです。
*1:厳密には、"1500 billed characters (3000 total characters)"と書いてあるけど"billed characters"がわからない