AIの声優はこれまで以上に人間味があり、すぐに採用できるようになりました。この記事ではAIの声優と一般声優との相違点や類似点など詳しく話していきます。
AIの合成声優の台頭
ディープラーニングを使用して、デジタルアシスタント、ビデオゲームのキャラクター、企業のビデオ用の合成声優を作る新興企業が増えています。
WellSaid Labs社のブログ記事には、「8人の新しいデジタル声優たち」に期待できるものを説明しています。3人の例を挙げると、Tobinは「エネルギッシュで洞察力に富んでいる人」、Paigeは「落ち着いていて、表現力が豊かな人」、Avaは「洗練されており、自信に満ちあふれたプロフェッショナル」です。
それぞれのAI声優は本物の声優をベースにし、その肖像権の同意を得た上で、AIを使って保存されています。他の企業はこれらの声のライセンスを申請すれば、何でも言ってもらえます。企業は、音声エンジンにテキストを入力するだけで、自然なサウンドがオーディオクリップの形で出力されます。
シアトルに拠点を置くWellSaid Labs社は、非営利の研究機関であるAllen Institute of Artificial Intelligence(アレン人工知能研究所)から独立した新興企業で、AIの音声を提供しています。今のところ、企業のeラーニングビデオの音声の作りを専門に提供しています。他の新興企業は、デジタルアシスタントやコールセンターのオペレーター、さらにはビデオゲームのキャラクターの声を作っています。
少し前までこのようなディープフェイクの声は、詐欺電話やインターネット上の不正行為に利用されたため、悪い評判がありました。しかし、その品質が少しずつ向上して以来、多くの企業が興味を持つようになりました。また、最近のディープラーニングの進歩により、人間の繊細な話し方も再現できるようになりました。この声は、適切な場所でスペースを開けたり、呼吸をしたりしています。その他に、彼らは自分のスタイルや感情を変えることもできます。しかし、話す時間が長すぎるとトリックを見つけられますが、短い音声クリップでは、人間と聞き分けがつかなくなります。
また、AIの声は安価で拡張性があり、操作しやすいのも特徴です。人間の声優を録音したものとは異なり、合成音声はリアルタイムで台本を更新できるため、広告をパーソナライズする新たな機会を提供できます。
しかし、超現実的な合成音声の増加は、実は人間の声優に影響を与え、彼らの仕事は逆に無意義ではないかと疑問を思っています。
声を偽造する方法
合成音声は以前から存在していたものです。しかし、初代SiriやAlexaの声を含む従来の合成音声は、ただ単語と音声をつなぎ合わせたため、無感情なロボットのようなものでした。より自然な音声にするためには、骨の折れる手作業が必要でした。
それを変えたのがディープラーニングです。音声開発者は、生成された音声のペースや発音、またイントネーションを正確に指示する必要がなくなりました。その代わりに、数時間分の音声をアルゴリズムに入力し、アルゴリズムにそれらのパターンを学習させられるようになったのです。
長年にわたり、研究者たちはこの基本的なアイデアを用いて、より洗練された音声エンジンを構築してきました。例えば、WellSaid Labs社が開発した音声エンジンは、2つの主要な深層学習モデルを使用しています。1つ目は、テキストの文章から、アクセント、ピッチ、音色など、話し手がどのように聞こえるかを予測します。2つ目のモデルは、息遣いや周囲の環境での声の響き方などの詳細を補います。
しかし、説得力のある合成音声を作るには、単にボタンを押すだけでは不十分です。人間の声は、同じセリフを言っていても、状況に応じて全く違う表現になるなど、一貫性がない表現力を持っているのが特徴です。
このニュアンスを捉えるためには、適切な声優を見つけて適切なトレーニングデータを提供し、深層学習モデルを微調整する必要があります。WellSaidによると、このプロセスには、リアルなサウンドの合成レプリカを開発するために、少なくとも1〜2時間の音声と数週間の作業が必要になります。
AI音声は、顧客との何百万ものやり取りの中で一貫した音声を維持しようとするブランドの間で、特に人気が高まっています。今スマートスピーカーが普及し、自動化されたカスタマーサービスエージェントや、自動車やスマートデバイスに組み込まれたデジタルアシスタントの台頭により、ブランドは月に100時間以上の音声を作成する必要があるかもしれません。しかし、従来の音声合成技術で提供されていた一般的な音声を使用することを避けます。この傾向は、パンデミックの際に加速したもので、ますます店頭での直接的なやり取りをやめるお客様が増えています。
企業のブランドアイデンティティに合ったカスタムボイスを提供するVocaliDの創設者兼CEOであるRupal Patelによると、ピザハットなら、ドミノのような声は出せないし、パパ・ジョーンズのように聞こえません。これらのブランドは、自分たちの色を考え、フォントを考えてきました。これからは、声の響きについても考え始めないといけません。
市場にあるAI声優
従来は、アメリカ北東部と南部、フランスとメキシコなど、市場ごとに異なる声優を雇っていましたが、音声AI企業の中には、一部はアクセントを操作したり、言語を切り替えたりできます。これにより、ストリーミングプラットフォーム上の広告を、聞く人に応じて、声の特徴だけではなく、話す言葉も変えられます。
例えば、ビールの広告では、ニューヨークとトロントのどちらで再生されているかによって、リスナーに異なるパブに立ち寄るように伝えられます。広告やスマートアシスタント用の音声をデザインするResemble.ai社は、すでにクライアントと協力して、SpotifyやPandoraでこのようなパーソナライズされた音声広告を始めようとしています。
また、ゲームやエンターテインメント業界もそのメリットを実感しています。
笑ったり泣いたり、囁いたり叫んだりするような感情的な声を専門とするSonantic社は、ビデオゲームメーカーやアニメスタジオと協力して、キャラクターのナレーションを提供しています。しかし、Sonantic社によると、多くのクライアントはプリプロダクションでのみ合成音声を使用し、最終的なプロダクションでは本物の声優に切り替えます。おそらく、いくつかのクライアントは、セリフの少ないキャラクターのために、プロセスを通して合成音声を使い始めています。また、Resemble.aiをはじめとする企業は、映画やテレビ番組と協力して、言葉が乱れたり発音を間違えたりした時に、俳優の演技を改善します。
しかし、AIの能力には限界があります。オーディオブックやポッドキャストのように、長時間にわたって声の臨場感を維持することはまだ難しいのです。また、監督が俳優の演技力を指導するのと同じように、AIの声のパフォーマンスをコントロールする機能もほとんどありません。Resemble.ai社のCEOによると、会社はまだ合成音声の初期段階であり、CGI技術がグリーンバック(クロマキー合成の撮影時に使われる緑色の背景)からまったく新しい世界を創造するのではなく、主に少し修正するために使用されている段階です。
人間味VS正当な報酬
人間の声優はまだ消えることはありません。それは表現力が豊かで、創造力がある長時間にわたるプロジェクトは、やはり人間が行う一番良いからです。また、これらの企業が作る合成音声には、声優がオリジナルのトレーニングデータを提供する必要があります。
しかし、声優の中には、AIによって音声が自動化されることにより、自分たちの生活に不安を感じている人がいます。一方で、AI声優を恐れていない人は、不当な報酬を受けたり、ブランドや評判を構成する自分の声をコントロールできなくなることを心配しています。
ここで実際に起きた声優がAIに対して起こした訴訟案件を紹介します。
カナダ人声優のベヴ・スタンディングがTikTokに対して起こした訴訟です。彼女は、アプリに内蔵されたナレーション機能が、彼女の許可なしに声の合成コピーを使用していると主張しています。スタンディングさんの経験は、アメリカのSiriのオリジナルボイスを担当したスーザン・ベネットさんの経験と似ています。スーザン・ベネットさんは、最初の録音だけ報酬を得て、何百万ものAppleデバイスで自分の声を持続的に使われることに対しては報酬を得ていませんでした。
企業の取り組み
企業の中には、声優業界に向けてより責任がある関わり方に取り組む企業があります。
SAG-AFTRAの担当者によると、優良企業は、声優の仕事に対して報酬を支払うほかに、敬意まで払う最良の方法を見つけるために、組合に働きかけています。
現在、いくつかの企業では、クライアントが特定の合成音声のライセンスを取得するたびに俳優に報酬を支払うモデルを採用しており、これにより受動的に収入を受け入れるという新たな流れが開かれました。また、声優をAI音声の作成に参加させ、使用するプロジェクトに対する拒否権を与えているところもあります。また、SAG-AFTRAは、声優を彼らの声の不正レプリカから守るための法整備を推進しています。
しかし、VocaliDのPatelにとって、AI音声の目的は、最終的に人間のパフォーマンスを再現することでも、既存のナレーション作業を自動化したりすることではありません。むしろ、まったく新しい可能性を切り開くものだと考えています。
将来的には、合成音声を使って、オンライン教材をさまざまな対象者に迅速に適応させられるような未来を想定しています。都心部の子供たちを教える場合、その子供たちのコミュニティで実際に使用されているような声があれば、より臨場感があり、学びやすいかもしれません。
①大学で行動経済学を学んでいます
②趣味はカフェ巡り
③AIを活用して価値創出する未来をワクワク期待しています。AIに関わる事例収集、また新しいサービスに紐つけることを勉強していきたいです!