独自のAIで音声内のキーワードを検索できる「DeepGram」が登場しました。
DeepGramは動画やオーディオ内の会話をAIによって認識し、音声による検索や整理を可能にしたサービスです。オーディオを高度な音声認識によってテキスト化し、検索する仕組みになっています。
主な用途としてはコールセンターの記録やその他音声を扱うアーカイブの整理や、動画編集における素材の仕分け補助などを想定しています。
DeepGramを使ってみる
動画ファイルを登録する
DeepGramにサインインすると、まず「ファイルをアップロードしよう!」と促されます。
アップロードせずとも、URLからでも登録できますので、今回は試しにAppleの新作発表会であるWWDCのプレゼンテーション動画のダイジェストをアップロードしてみます。
※日本語の動画も試してみましたが、うまくいきませんでしたので、英語の動画で進めていきます。
動画をアップロードすると、しばらくDeepGram側でテキスト起こしをしているのか、ステータスが「Indexing」になります。おそらく裏側では音声をテキスト化して、検索するためのインデックスをしているようです。ステータスが「done」になれば終わりです。
音声検索する
インデックス作業が終わると動画のページに飛べるようになります。黒い動画プレイヤーのようなものがインターフェースになります。
右上に白いテキストフィールドがありますが、ここに検索ワードを入れます。
たとえば、このプレゼンテーションではどの程度「iPhone」の話をしているのか、などが検索できるのでやってみると、タイムライン上に赤いインジケーターがいくつか表示され、テキストフィールドの下にも検索結果の個数と信頼度(confidence)が表示されます。
「prev」「next」でマーカー間の移動ができ、再生された音声にはちゃんと「iPhone」という単語が入っているのが確認できました。
デモ(埋め込んでみました)
アップロードしたファイルは管理画面でも見れますが、そのまま他サイトに埋め込むこともできます。下記が今回使った動画です。
試しに右上のテキストフィールドにワードを入れて試してみてください。今回の場合はAppleの製品発表ですので、下記のようなワードで試すと良いです。
「iPhone」 「Mac」 「Apple Pay」 「Siri」
なかなかの精度で検索できているのが確認できると思います。「あの話は動画のどのへんでしていたかな?」といった場合など、特定の議題で動画内を検索したいときなどは便利そうです。
まとめ
現状日本語は非対応となりますが、DeepGramは動画内の文脈を理解し、検索ができるようになる未来を感じさせるサービスとなっています。現在も既にコールセンターサービスTwilioと連携しているように、大量の音声アーカイブを持つサービスとの相性も良さそうです。
ユーザー登録すると、開発者向けのAPIも公開されているので、興味ある方は覗いてみてください。