見出し画像

【2026年版】AITuber開発者向けローカルTTS 10選!手元で動かせるオープンウェイト音声エンジンまとめ

AITuber開発で使いやすいローカルTTSを紹介!

AITuberを作るとき、LLMやアバター素材、配信画面と同じくらい重要になるのが「声」です。

音声合成エンジンはクラウドAPIを使う方法もありますが、最近はローカル環境やGoogle Colab上で動かせるオープンウェイトのTTSもかなり増えてきました。

ローカルTTSには、以下のようなメリットがあります。

  • 手元やColab上で検証できる

  • APIの従量課金を気にせず試しやすい

  • OpenAI互換APIにしておくと既存アプリへ組み込みやすい

  • 音声クローン、話者切り替え、多言語対応などを比較しやすい

一方で、GPUが必要だったり、ライセンス上商用利用できなかったり、Colabでは依存関係が厳しいものもあります。

そこで今回は、以下のリポジトリで検証しているローカルTTSの中から、AITuber開発者が知っておくと便利なものを中心に紹介します。

URL: https://github.com/shinshin86/local-tts-on-google-colab
対応TTSの一覧はREADMEに記載しています。日本語にも対応。

このリポジトリでは、選択したTTSエンジンをGoogle Colab上で起動し、OpenAI互換の `/v1/audio/speech` エンドポイントとして一時的に使えるようにしています。

検証や比較がしやすいように作っているため、まずは「どのTTSが自分のAITuberに合うか」を試す用途に向いています。

ちなみにAPI系の音声エンジン・TTSについて知りたい方は別途記事でまとめているので、そちらをご覧ください。

用途別おすすめ(サクッと知りたい人向け)

Irodori-TTS

  • 特徴:日本語向け。48kHz出力で高音質

  • まず試したい用途:固定キャラクターボイスの日本語AITuber

Piper-Plus

  • 特徴:日本語対応の軽量TTS。GPU不要でCPUでも高速。WASM版もあり、ブラウザ内動作にも向く

  • まず試したい用途:ローカル常時起動や低コストな日本語音声

Kokoro

  • 特徴:日本語・英語・中国語などに対応。設定がシンプルで試しやすい

  • まず試したい用途:まずOpenAI互換TTSを動かす初期検証

Qwen3-TTS

  • 特徴:日本語を含む10言語、9種類のボイス、Apache 2.0

  • まず試したい用途:多言語・高品質なAITuber音声

VoxCPM2

  • 特徴:30言語対応。声デザイン、音声クローン、言語自動検出

  • まず試したい用途:キャラクター声の作り込みや多言語検証

Chatterbox

  • 特徴:23言語対応。比較的軽めのGPUで音声クローン可能、MIT

  • まず試したい用途:音声クローンを使ったキャラクター作成

Zonos

  • 特徴:日本語を含む5言語。ゼロショット音声クローン、Apache 2.0

  • まず試したい用途:日本語対応と音声クローンの両方を試す

OuteTTS

  • 特徴:CPU / GPU両対応。0.6BはApache 2.0、1Bは非商用

  • まず試したい用途:GPUなしで多言語・音声クローンを試す

CosyVoice2

  • 特徴:日本語を含む9言語。cross-lingual音声クローン対応

  • まず試したい用途:多言語キャラクターや声色固定の検証

Sarashina-TTS

  • 特徴:日本語中心の高品質TTS。音声クローン対応、非商用

  • まず試したい用途:研究・個人検証で日本語品質を比較

今回紹介するローカルTTS

画像

今回詳しく紹介するのは、以下の10個です。

  • Irodori-TTS

  • Piper-Plus

  • Kokoro

  • Qwen3-TTS

  • VoxCPM2

  • Chatterbox

  • Zonos

  • OuteTTS

  • CosyVoice2

  • Sarashina-TTS

いずれもリポジトリ内でColab動作確認済みのTTSです。

ただし、GPU必須のもの、ライセンス上商用利用不可のもの、音声クローン利用時に本人同意が必要なものがあります。

実際に使う場合は、各モデル・各音声の最新ライセンスを必ず確認してください。

Irodori-TTS

Irodori-TTSは、日本語向けのTTSです。

このリポジトリでは、デフォルトでHugging Faceの `Aratako/Irodori-TTS-500M-v2` モデルを使用します。出力は48kHzで高音質です。

「日本語のオープンウェイトTTSをローカルで試したい」という場合に分かりやすい選択肢です。AITuber用途では、固定のキャラクターボイスで自然な日本語を話させたい場合に候補になります。

開発者向けのポイントは以下です。

  • 対応言語:日本語

  • Colab動作:動作OK

  • デフォルトモデル:`Aratako/Irodori-TTS-500M-v2`

  • 出力:48kHz

  • voice切り替え:なし

  • ライセンス:コード・重みともMIT

  • 注意点:なりすまし・ディープフェイク生成を禁止する倫理規定あり

Piper-Plus

Piper-Plusは、Piperをベースに日本語対応を強化した軽量TTSです。

元のPiperから、日本語品質、OpenJTalk、プロソディ処理、GPLフリーのMITライセンスという方向で強化されています。

このリポジトリでは、デフォルトモデルとして `tsukuyomi` を使います。
日本語女性音声で、GPU不要、CPUでも高速に動くため、ローカル環境でAITuberの音声応答を試すにはかなり現実的な選択肢です。

「GPUを使わず、まず軽く日本語音声を出したい」という人に向いています。

開発者向けのポイントは以下です。

  • 対応言語:日本語 / 英語 / 中国語 / スペイン語 / フランス語 / ポルトガル語など。G2Pとしては8言語対応、学習済みモデルは6言語。

  • Colab動作:動作OK

  • GPU:不要

  • デフォルトモデル:`tsukuyomi`

  • ライセンス:コード・重みともMIT

  • 向いている用途:CPU環境での日本語AITuber、低コストな常時起動検証

ちなみに私自身、『Chrome on AITuber』というChrome内で動くAITuber配信ツールで、こちらのWASM版を利用させていただいてますが、完全にブラウザ内で完結して動作してくれています!

Kokoro

Kokoroは、日本語・英語・中国語などに対応した軽量TTSです。

このリポジトリでは、デフォルト音声として日本語の `jf_alpha` を使う設定になっており、フォームから9種類のvoiceを選べます。

ローカルTTSをまず触ってみたい場合に、最初の候補としてかなり扱いやすいエンジンです。Colab上でも動作確認できており、複雑な参照音声や話者設定を用意しなくても、テキストを渡してすぐ音声合成を試せます。

AITuber開発では、まずチャット応答を音声化する最小構成を作りたいときに向いています。

開発者向けのポイントは以下です。

  • 対応言語:日本語 / 英語 / 中国語 ほか

  • Colab動作:動作OK

  • voice:`jf_alpha` など9種類

  • ライセンス:コード・重みともApache 2.0

  • 向いている用途:まずローカルTTSを試す、AITuberの音声出力の初期検証

Qwen3-TTS

Qwen3-TTSは、Qwen系の多言語高品質TTSです。

日本語を含む10言語に対応し、CustomVoiceモデルでは9種類のボイスを使えます。このリポジトリでは、デフォルトで軽量な0.6Bモデルを使い、必要に応じて1.7Bモデルも選べる構成です。

GPUランタイムが必要ですが、多言語対応と品質を重視する場合にはかなり有力な候補です。日本語AITuberだけでなく、英語・中国語なども含めた多言語キャラクターを作りたい場合に試す価値があります。

開発者向けのポイントは以下です。

  • 対応言語:日本語 / 英語 / 中国語 など10言語

  • Colab動作:動作OK、GPU必須

  • モデル:0.6B / 1.7B

  • ボイス:9種類

  • ライセンス:コード・重みともApache 2.0

  • 向いている用途:多言語AITuber、高品質な音声応答

VoxCPM2

VoxCPM2は、OpenBMBの高品質TTSです。

2Bパラメータのモデルで、日本語を含む30言語に対応しています。言語の自動検出、ゼロショットTTS、声デザイン、音声クローニングなど、かなり多機能なエンジンです。

AITuber用途では、キャラクターの声を細かく作りたい場合や、多言語対応を視野に入れた音声エンジンを検証したい場合に向いています。

一方でGPUが必要で、リポジトリ上ではT4以上、VRAMはおよそ8GB程度が目安とされています。

開発者向けのポイントは以下です。

  • 対応言語:日本語 / 英語 / 中国語など30言語

  • Colab動作:動作OK、GPU必須

  • 必要VRAM目安:約8GB

  • 特徴:言語自動検出、ゼロショットTTS、声デザイン、音声クローニング

  • ライセンス:コード・重みともApache 2.0

  • 向いている用途:多言語AITuber、キャラクター声の実験

Chatterbox

Chatterboxは、Resemble AIの多言語TTSです。

Chatterbox Multilingualモデルは、日本語・英語・中国語・フランス語・ドイツ語・スペイン語・韓国語など23言語に対応しています。ゼロショット音声クローンにも対応しており、参照音声を指定すると `clone` voice が使えるようになります。

GPU推奨ですが、必要VRAMの目安は約2〜4GBと比較的軽めです。ライセンスもコード・重みともMITのため、実用候補として検討しやすいTTSです。

AITuber開発では、キャラクターの声色を参照音声で作りたい場合に有力です。

生成音声にはResemble AIのPerThウォーターマークが含まれます。
音声クローンを使う場合は、必ず本人の同意がある音声、または自分が権利を持つ音声のみを使ってください。

開発者向けのポイントは以下です。

  • 対応言語:日本語 / 英語 / 中国語など23言語

  • Colab動作:動作OK、GPU推奨

  • 必要VRAM目安:約2〜4GB

  • voice:`default` / `clone`

  • ライセンス:コード・重みともMIT

  • 向いている用途:音声クローン、多言語キャラクター、商用も視野に入れた検証

Zonos

Zonosは、英語・日本語・中国語・フランス語・ドイツ語に対応した多言語TTSです。

ゼロショット音声クローニングに対応しており、デフォルトでは上流に同梱されている参照音声を使います。独自の参照音声を渡すことで `clone` voice も使えます。

このリポジトリでは、ポータビリティを重視して `Zyphra/Zonos-v0.1-transformer` をデフォルトにしています。

今回紹介しているリポジトリ内のColab構成ではGPU必須で、VRAM 6GB以上が目安です。
上流実装としてはCPU実行も可能ですが、かなり遅いため、対話用途ではGPU前提と考えるのが現実的です。

日本語対応、音声クローン対応、Apache 2.0という点で、AITuber開発の候補としてかなりバランスが良いTTSです。

開発者向けのポイントは以下です。

  • 対応言語:英語 / 日本語 / 中国語 / フランス語 / ドイツ語

  • Colab動作:動作OK。このリポジトリの構成ではGPU必須

  • 必要VRAM目安:6GB以上

  • 音声クローン:対応

  • ライセンス:コード・重みともApache 2.0

  • 注意点:`espeak-ng` が必要

OuteTTS

OuteTTSは、日本語を含む多言語に対応した軽量TTSです。

モデルサイズは `0.6B` と `1B` があり、バックエンドも `HF` と `LLAMACPP` を選べます。このリポジトリでは、デフォルトで商用利用しやすい `0.6B` を使います。

大きな特徴は、CPU / GPUの両方で動作することです。日本語を発話させる場合は、日本語の参照音声から `clone` でspeaker profileを作るのが推奨されています。

AITuber開発では、GPUがない環境でも音声クローンや多言語TTSを試したい場合に候補になります。

開発者向けのポイントは以下です。

  • 対応言語:0.6Bは14言語、1Bは23言語。日本語 / 英語 / 中国語などに対応

  • Colab動作:動作OK

  • GPU:CPU / GPU両対応

  • モデル:0.6B / 1B

  • 音声クローン:対応

  • 0.6Bライセンス:コード・重みともApache 2.0、商用利用OK

  • 1Bライセンス:重みはCC-BY-NC-SA-4.0で、Llama 3.2 Community Licenseも関係します。商用利用は不可

商用利用を考えている場合は、まず `0.6B` を選ぶのが安全です。

CosyVoice2

CosyVoice2は、Alibaba FunAudioLLMの多言語ゼロショット音声クローンTTSです。

`FunAudioLLM/CosyVoice2-0.5B` は、日本語・英語・中国語・韓国語・ドイツ語・スペイン語・フランス語・イタリア語・ロシア語の9言語に加え、中国方言にも対応しています。

Cross-lingualなゼロショットクローンが可能で、AITuber開発では「特定の声色で日本語も英語も話したい」といった検証に向いています。

Colabでは上流依存の都合でPython 3.10 venvを使う構成になっています。GPU推奨で、VRAM目安は約4GBです。

開発者向けのポイントは以下です。

  • 対応言語:日本語 / 英語 / 中国語 / 韓国語 / ドイツ語など9言語

  • Colab動作:動作OK、GPU推奨

  • 必要VRAM目安:約4GB

  • 音声クローン:対応

  • 環境:Python 3.10 venvを使用

  • ライセンス:コード・重みともApache 2.0

  • 向いている用途:多言語AITuber、音声クローン、商用も視野に入れた検証

Sarashina-TTS

Sarashina-TTSは、SB Intuitionsの日本語中心TTSです。

0.8BパラメータのLLMベースTTSで、日本語と英語に対応しています。ゼロショット音声クローンにも対応しており、日本語TTSの品質検証として非常に気になる存在です。

ColabではGPU必須で、Hugging Face transformersバックエンドではVRAM約6GBが目安です。T4でも動作可能とされています。

ただし、ライセンスはSarashina Model NonCommercial License Agreementです。通常の商用利用は不可で、商用利用する場合はSB Intuitionsへの問い合わせが必要です。
また、生成音声にはSilentCipherの不可聴ウォーターマークが埋め込まれ、規約上これを除去・無効化してはいけません。

そのため、商用AITuberでそのまま使うというより、研究・個人検証・品質比較のために試す候補として考えるのがよいでしょう。

開発者向けのポイントは以下です。

  • 対応言語:日本語 / 英語

  • Colab動作:動作OK、GPU必須

  • 必要VRAM目安:約6GB

  • 音声クローン:対応

  • ライセンス:Sarashina Model NonCommercial License Agreement

  • 商用利用:通常不可。商用利用は別途問い合わせ

  • 注意点:SilentCipherウォーターマークの除去禁止

そのほか気になるローカルTTS

上で詳しく紹介したもの以外にも、このリポジトリでは多くのTTSを検証しています。

Piper

  • 概要:軽量で安定したTTS。デフォルトは英語

  • AITuber用途での見方:ライセンス確認が必要。商用ならvoiceモデル選定に注意

MOSS-TTS-Nano

  • 概要:100Mパラメータ、CPU動作可、多言語

  • AITuber用途での見方:現状は出力が約2秒で切れるため検証向け

NeuTTS

  • 概要:CPU可、英語/西語/独語/仏語、voice cloning

  • AITuber用途での見方:日本語非対応。海外向けAITuberなら候補

TinyTTS

  • 概要:1.6Mパラメータ、CPUで非常に高速

  • AITuber用途での見方:英語のみ。軽量英語音声の検証向け

Voxtral-TTS

  • 概要:Mistral系、9言語、20 voice

  • AITuber用途での見方:VRAM 16GB以上、非商用ライセンス

F5-TTS

  • 概要:ゼロショット音声クローニング

  • AITuber用途での見方:モデル重みが非商用。日本語は別チェックポイントが必要

Dia

  • 概要:英語のマルチスピーカー対話TTS

  • AITuber用途での見方:英語AITuberや会話音声の生成に面白い

Kyutai-TTS

  • 概要:英語/フランス語、ストリーミングTTS

  • AITuber用途での見方:日本語非対応。海外向け用途

Pocket-TTS

  • 概要:GPU不要、CPUで動作。100Mパラメータ、約6x realtime

  • AITuber用途での見方:日本語非対応だが、軽量オンデバイスTTSとして有力

Spark-TTS

  • 概要:英語/中国語、声・ピッチ・速度制御

  • AITuber用途での見方:日本語非対応、重みは非商用

まとめ

画像

オープンウェイトなローカルTTSは、ここ数年で一気に選択肢が増えています。

日本語だけを見ても、Kokoro、Irodori-TTS、Piper-Plus、Qwen3-TTS、VoxCPM2、Chatterbox、Zonos、OuteTTS、CosyVoice2、Sarashina-TTSなど、かなり多様な候補があります。

AITuber開発者にとっては、音声合成エンジンを自由に差し替えられることがなにより大きな強みになるかと思うので、気になったものがあれば動かしてみることをおすすめします。

なお、各TTSの対応言語、ライセンス、商用利用可否、必要VRAMなどは更新される可能性があります。
この記事の内容は2026年5月4日時点の確認内容であり、実際に利用する場合は各モデルカード、README、ライセンス本文を必ず確認してください。

それでは、良きAITuberライフを!

いいなと思ったら応援しよう!

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
AITuberを用いたYouTube配信を簡単に行うためのWebアプリ、AITuber OnAirの公式アカウントです! AITuber OnAirの使い方をnoteに書いていきます。
【2026年版】AITuber開発者向けローカルTTS 10選!手元で動かせるオープンウェイト音声エンジンまとめ|AITuber OnAir
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1