ChatGPT Images 2.0とHeyGenで作るリアルなAIアバターの作り方
こんにちは、GENELです。
今回はChatGPT Images 2.0とHeyGenで他言語を話すAIアバターを作ってみました。
手順としては、
①ChatGPTで画像生成
②ElevenLabsなどで音声生成
③HeyGenでリップシンク
という、3ステップで簡単にできるので、このnoteではそのやり方を詳しくシェアしていきます。
STEP① ChatGPT Images 2.0でアバター画像を生成する
まずはアバターの「素材」となる画像を作るところから。
ChatGPT Images 2.0では、リアルな人物の生成が今までのツールより簡単にできるようになりました。
特に、以前までののっぺり感がなくなり、肌の質感や表情、光の当たり方がリアルですよね。
💡画像生成のコツ
ここで一番大事なのが、後工程(HeyGen)を意識した画像を作るということです。
HeyGenでリップシンク(口パク処理)をするとき、以下の条件が揃っていると精度が上がります。
正面を向いていて、顔の面積が大きめ
口元が隠れていない
プロンプトの例としてはこんな感じです。
ホテル館内案内人の日本人女性の画像を生成して。
一眼レフで撮影したような質感ではなく、肉眼でそのまま見たようなリアルな画像。
可愛い女性ではなく、一般的なホテルスタッフ。
服装もホテルスタッフ風。
顔が大きく見えるほうがいい。
バストショット~ショルダーショットあたりで。これで出来た画像がこちらです。
「バストショット~ショルダーショットあたり」って言うのがポイントで、例えばこれがもう少し引きの画像になったらそれだけリップシンクの精度が下がってしまいます。
STEP② ElevenLabsなどでアバターの「声」を作る
画像ができたら、次は声です。
今回はElevenLabsでの声の生成の仕方をご紹介します。
ElevenLabsは現状、音声生成AIの中でもトップクラスの自然さを持っています。
抑揚、間の取り方、感情表現、どれもクオリティが高いし、日本語対応もしています。
ElevenLabsについては過去にいくつかnoteを出しているので参考にしてみてください。
💡使い方の基本
ElevenLabsのサイトにアクセスして、「Text to Speech(テキスト読み上げ)」から始めます。
【手順】
①テキストを入力
台本はChatGPTで生成しました。
ご滞在中にご利用いただける館内施設をご案内します。
朝食会場は2階レストランで、朝7時から10時までご利用いただけます。
大浴場は地下1階にあり、タオルはお部屋からお持ちください。
自動販売機と製氷機は、各階エレベーター横にございます。
チェックアウトは午前11時までです。②声のモデルを選択
③感情タグを調整
感情タグはこちらのnoteで紹介しています。
④生成 → MP3でダウンロード
これで出来た音声がこちらです。
💡音声生成のコツ
ここで気をつけたいのが、テキストの書き方が声のクオリティに左右されるという点です。
例えば、句読点の位置や「。」「、」の打ち方で、読み上げたときのリズムが変わります。
実際に音声を聞きながら、テキストを少しずつ調整していくといいかもしれません。
また、日本語は長い文章だと途中で不自然なイントネーションになることもあります。
難しい漢字はひらがなで書いたり、1文を短く区切ることで、かなり自然に聞こえるようになります。
また、「えー、」みたいな間を作るとよりリアルに読み上げてくれます。
💡自分の声をクローンする方法も
ElevenLabsにはボイスクローンという機能があって、自分の声を数分録音するだけで、自分に似た声のモデルを作ることができます。
プレゼン動画やビジネス用途だと、この使い方がしっくりくることも多いかと思います。
ちなみにGENELの声のクローンボイスもあるので、自然な会話風の女性ボイスや女性のナレーションをお探しの方はぜひ使ってみてください!
GENELの声が使えるリンク:こちら🔗
この声のID:GxhGYQesaQaYKePCZDEC
STEP③ HeyGenでリップシンク動画を生成する
いよいよ最後のステップです。
ここで画像と音声が合体して、「アバター動画」になります。
HeyGenは「Video Translation」や「AI Avatar」など複数の機能があります。今回使うのは「Avatar Ⅳ」という機能です。
使い方を実際の画面のスクリーンショットと一緒にご紹介していきます。
また、リアルにリップシンクするためにはちょっとしたコツもいるので、それも併せて解説します。
ここから先は
この記事が気に入ったらチップで応援してみませんか?


購入者のコメント