【2026年版】AITuber開発者向けローカルTTS 10選!手元で動かせるオープンウェイト音声エンジンまとめ
AITuber開発で使いやすいローカルTTSを紹介!
AITuberを作るとき、LLMやアバター素材、配信画面と同じくらい重要になるのが「声」です。
音声合成エンジンはクラウドAPIを使う方法もありますが、最近はローカル環境やGoogle Colab上で動かせるオープンウェイトのTTSもかなり増えてきました。
ローカルTTSには、以下のようなメリットがあります。
手元やColab上で検証できる
APIの従量課金を気にせず試しやすい
OpenAI互換APIにしておくと既存アプリへ組み込みやすい
音声クローン、話者切り替え、多言語対応などを比較しやすい
一方で、GPUが必要だったり、ライセンス上商用利用できなかったり、Colabでは依存関係が厳しいものもあります。
そこで今回は、以下のリポジトリで検証しているローカルTTSの中から、AITuber開発者が知っておくと便利なものを中心に紹介します。
対応TTSの一覧はREADMEに記載しています。日本語にも対応。
このリポジトリでは、選択したTTSエンジンをGoogle Colab上で起動し、OpenAI互換の `/v1/audio/speech` エンドポイントとして一時的に使えるようにしています。
検証や比較がしやすいように作っているため、まずは「どのTTSが自分のAITuberに合うか」を試す用途に向いています。
ちなみにAPI系の音声エンジン・TTSについて知りたい方は別途記事でまとめているので、そちらをご覧ください。
用途別おすすめ(サクッと知りたい人向け)
Irodori-TTS
特徴:日本語向け。48kHz出力で高音質
まず試したい用途:固定キャラクターボイスの日本語AITuber
Piper-Plus
特徴:日本語対応の軽量TTS。GPU不要でCPUでも高速。WASM版もあり、ブラウザ内動作にも向く
まず試したい用途:ローカル常時起動や低コストな日本語音声
Kokoro
特徴:日本語・英語・中国語などに対応。設定がシンプルで試しやすい
まず試したい用途:まずOpenAI互換TTSを動かす初期検証
Qwen3-TTS
特徴:日本語を含む10言語、9種類のボイス、Apache 2.0
まず試したい用途:多言語・高品質なAITuber音声
VoxCPM2
特徴:30言語対応。声デザイン、音声クローン、言語自動検出
まず試したい用途:キャラクター声の作り込みや多言語検証
Chatterbox
特徴:23言語対応。比較的軽めのGPUで音声クローン可能、MIT
まず試したい用途:音声クローンを使ったキャラクター作成
Zonos
特徴:日本語を含む5言語。ゼロショット音声クローン、Apache 2.0
まず試したい用途:日本語対応と音声クローンの両方を試す
OuteTTS
特徴:CPU / GPU両対応。0.6BはApache 2.0、1Bは非商用
まず試したい用途:GPUなしで多言語・音声クローンを試す
CosyVoice2
特徴:日本語を含む9言語。cross-lingual音声クローン対応
まず試したい用途:多言語キャラクターや声色固定の検証
Sarashina-TTS
特徴:日本語中心の高品質TTS。音声クローン対応、非商用
まず試したい用途:研究・個人検証で日本語品質を比較
今回紹介するローカルTTS
今回詳しく紹介するのは、以下の10個です。
Irodori-TTS
Piper-Plus
Kokoro
Qwen3-TTS
VoxCPM2
Chatterbox
Zonos
OuteTTS
CosyVoice2
Sarashina-TTS
いずれもリポジトリ内でColab動作確認済みのTTSです。
ただし、GPU必須のもの、ライセンス上商用利用不可のもの、音声クローン利用時に本人同意が必要なものがあります。
実際に使う場合は、各モデル・各音声の最新ライセンスを必ず確認してください。
Irodori-TTS
Irodori-TTSは、日本語向けのTTSです。
このリポジトリでは、デフォルトでHugging Faceの `Aratako/Irodori-TTS-500M-v2` モデルを使用します。出力は48kHzで高音質です。
「日本語のオープンウェイトTTSをローカルで試したい」という場合に分かりやすい選択肢です。AITuber用途では、固定のキャラクターボイスで自然な日本語を話させたい場合に候補になります。
開発者向けのポイントは以下です。
対応言語:日本語
Colab動作:動作OK
デフォルトモデル:`Aratako/Irodori-TTS-500M-v2`
出力:48kHz
voice切り替え:なし
ライセンス:コード・重みともMIT
注意点:なりすまし・ディープフェイク生成を禁止する倫理規定あり
Piper-Plus
Piper-Plusは、Piperをベースに日本語対応を強化した軽量TTSです。
元のPiperから、日本語品質、OpenJTalk、プロソディ処理、GPLフリーのMITライセンスという方向で強化されています。
このリポジトリでは、デフォルトモデルとして `tsukuyomi` を使います。
日本語女性音声で、GPU不要、CPUでも高速に動くため、ローカル環境でAITuberの音声応答を試すにはかなり現実的な選択肢です。
「GPUを使わず、まず軽く日本語音声を出したい」という人に向いています。
開発者向けのポイントは以下です。
対応言語:日本語 / 英語 / 中国語 / スペイン語 / フランス語 / ポルトガル語など。G2Pとしては8言語対応、学習済みモデルは6言語。
Colab動作:動作OK
GPU:不要
デフォルトモデル:`tsukuyomi`
ライセンス:コード・重みともMIT
向いている用途:CPU環境での日本語AITuber、低コストな常時起動検証
ちなみに私自身、『Chrome on AITuber』というChrome内で動くAITuber配信ツールで、こちらのWASM版を利用させていただいてますが、完全にブラウザ内で完結して動作してくれています!
Kokoro
Kokoroは、日本語・英語・中国語などに対応した軽量TTSです。
このリポジトリでは、デフォルト音声として日本語の `jf_alpha` を使う設定になっており、フォームから9種類のvoiceを選べます。
ローカルTTSをまず触ってみたい場合に、最初の候補としてかなり扱いやすいエンジンです。Colab上でも動作確認できており、複雑な参照音声や話者設定を用意しなくても、テキストを渡してすぐ音声合成を試せます。
AITuber開発では、まずチャット応答を音声化する最小構成を作りたいときに向いています。
開発者向けのポイントは以下です。
対応言語:日本語 / 英語 / 中国語 ほか
Colab動作:動作OK
voice:`jf_alpha` など9種類
ライセンス:コード・重みともApache 2.0
向いている用途:まずローカルTTSを試す、AITuberの音声出力の初期検証
Qwen3-TTS
Qwen3-TTSは、Qwen系の多言語高品質TTSです。
日本語を含む10言語に対応し、CustomVoiceモデルでは9種類のボイスを使えます。このリポジトリでは、デフォルトで軽量な0.6Bモデルを使い、必要に応じて1.7Bモデルも選べる構成です。
GPUランタイムが必要ですが、多言語対応と品質を重視する場合にはかなり有力な候補です。日本語AITuberだけでなく、英語・中国語なども含めた多言語キャラクターを作りたい場合に試す価値があります。
開発者向けのポイントは以下です。
対応言語:日本語 / 英語 / 中国語 など10言語
Colab動作:動作OK、GPU必須
モデル:0.6B / 1.7B
ボイス:9種類
ライセンス:コード・重みともApache 2.0
向いている用途:多言語AITuber、高品質な音声応答
VoxCPM2
VoxCPM2は、OpenBMBの高品質TTSです。
2Bパラメータのモデルで、日本語を含む30言語に対応しています。言語の自動検出、ゼロショットTTS、声デザイン、音声クローニングなど、かなり多機能なエンジンです。
AITuber用途では、キャラクターの声を細かく作りたい場合や、多言語対応を視野に入れた音声エンジンを検証したい場合に向いています。
一方でGPUが必要で、リポジトリ上ではT4以上、VRAMはおよそ8GB程度が目安とされています。
開発者向けのポイントは以下です。
対応言語:日本語 / 英語 / 中国語など30言語
Colab動作:動作OK、GPU必須
必要VRAM目安:約8GB
特徴:言語自動検出、ゼロショットTTS、声デザイン、音声クローニング
ライセンス:コード・重みともApache 2.0
向いている用途:多言語AITuber、キャラクター声の実験
Chatterbox
Chatterboxは、Resemble AIの多言語TTSです。
Chatterbox Multilingualモデルは、日本語・英語・中国語・フランス語・ドイツ語・スペイン語・韓国語など23言語に対応しています。ゼロショット音声クローンにも対応しており、参照音声を指定すると `clone` voice が使えるようになります。
GPU推奨ですが、必要VRAMの目安は約2〜4GBと比較的軽めです。ライセンスもコード・重みともMITのため、実用候補として検討しやすいTTSです。
AITuber開発では、キャラクターの声色を参照音声で作りたい場合に有力です。
生成音声にはResemble AIのPerThウォーターマークが含まれます。
音声クローンを使う場合は、必ず本人の同意がある音声、または自分が権利を持つ音声のみを使ってください。
開発者向けのポイントは以下です。
対応言語:日本語 / 英語 / 中国語など23言語
Colab動作:動作OK、GPU推奨
必要VRAM目安:約2〜4GB
voice:`default` / `clone`
ライセンス:コード・重みともMIT
向いている用途:音声クローン、多言語キャラクター、商用も視野に入れた検証
Zonos
Zonosは、英語・日本語・中国語・フランス語・ドイツ語に対応した多言語TTSです。
ゼロショット音声クローニングに対応しており、デフォルトでは上流に同梱されている参照音声を使います。独自の参照音声を渡すことで `clone` voice も使えます。
このリポジトリでは、ポータビリティを重視して `Zyphra/Zonos-v0.1-transformer` をデフォルトにしています。
今回紹介しているリポジトリ内のColab構成ではGPU必須で、VRAM 6GB以上が目安です。
上流実装としてはCPU実行も可能ですが、かなり遅いため、対話用途ではGPU前提と考えるのが現実的です。
日本語対応、音声クローン対応、Apache 2.0という点で、AITuber開発の候補としてかなりバランスが良いTTSです。
開発者向けのポイントは以下です。
対応言語:英語 / 日本語 / 中国語 / フランス語 / ドイツ語
Colab動作:動作OK。このリポジトリの構成ではGPU必須
必要VRAM目安:6GB以上
音声クローン:対応
ライセンス:コード・重みともApache 2.0
注意点:`espeak-ng` が必要
OuteTTS
OuteTTSは、日本語を含む多言語に対応した軽量TTSです。
モデルサイズは `0.6B` と `1B` があり、バックエンドも `HF` と `LLAMACPP` を選べます。このリポジトリでは、デフォルトで商用利用しやすい `0.6B` を使います。
大きな特徴は、CPU / GPUの両方で動作することです。日本語を発話させる場合は、日本語の参照音声から `clone` でspeaker profileを作るのが推奨されています。
AITuber開発では、GPUがない環境でも音声クローンや多言語TTSを試したい場合に候補になります。
開発者向けのポイントは以下です。
対応言語:0.6Bは14言語、1Bは23言語。日本語 / 英語 / 中国語などに対応
Colab動作:動作OK
GPU:CPU / GPU両対応
モデル:0.6B / 1B
音声クローン:対応
0.6Bライセンス:コード・重みともApache 2.0、商用利用OK
1Bライセンス:重みはCC-BY-NC-SA-4.0で、Llama 3.2 Community Licenseも関係します。商用利用は不可
商用利用を考えている場合は、まず `0.6B` を選ぶのが安全です。
CosyVoice2
CosyVoice2は、Alibaba FunAudioLLMの多言語ゼロショット音声クローンTTSです。
`FunAudioLLM/CosyVoice2-0.5B` は、日本語・英語・中国語・韓国語・ドイツ語・スペイン語・フランス語・イタリア語・ロシア語の9言語に加え、中国方言にも対応しています。
Cross-lingualなゼロショットクローンが可能で、AITuber開発では「特定の声色で日本語も英語も話したい」といった検証に向いています。
Colabでは上流依存の都合でPython 3.10 venvを使う構成になっています。GPU推奨で、VRAM目安は約4GBです。
開発者向けのポイントは以下です。
対応言語:日本語 / 英語 / 中国語 / 韓国語 / ドイツ語など9言語
Colab動作:動作OK、GPU推奨
必要VRAM目安:約4GB
音声クローン:対応
環境:Python 3.10 venvを使用
ライセンス:コード・重みともApache 2.0
向いている用途:多言語AITuber、音声クローン、商用も視野に入れた検証
Sarashina-TTS
Sarashina-TTSは、SB Intuitionsの日本語中心TTSです。
0.8BパラメータのLLMベースTTSで、日本語と英語に対応しています。ゼロショット音声クローンにも対応しており、日本語TTSの品質検証として非常に気になる存在です。
ColabではGPU必須で、Hugging Face transformersバックエンドではVRAM約6GBが目安です。T4でも動作可能とされています。
ただし、ライセンスはSarashina Model NonCommercial License Agreementです。通常の商用利用は不可で、商用利用する場合はSB Intuitionsへの問い合わせが必要です。
また、生成音声にはSilentCipherの不可聴ウォーターマークが埋め込まれ、規約上これを除去・無効化してはいけません。
そのため、商用AITuberでそのまま使うというより、研究・個人検証・品質比較のために試す候補として考えるのがよいでしょう。
開発者向けのポイントは以下です。
対応言語:日本語 / 英語
Colab動作:動作OK、GPU必須
必要VRAM目安:約6GB
音声クローン:対応
ライセンス:Sarashina Model NonCommercial License Agreement
商用利用:通常不可。商用利用は別途問い合わせ
注意点:SilentCipherウォーターマークの除去禁止
そのほか気になるローカルTTS
上で詳しく紹介したもの以外にも、このリポジトリでは多くのTTSを検証しています。
Piper
概要:軽量で安定したTTS。デフォルトは英語
AITuber用途での見方:ライセンス確認が必要。商用ならvoiceモデル選定に注意
MOSS-TTS-Nano
概要:100Mパラメータ、CPU動作可、多言語
AITuber用途での見方:現状は出力が約2秒で切れるため検証向け
NeuTTS
概要:CPU可、英語/西語/独語/仏語、voice cloning
AITuber用途での見方:日本語非対応。海外向けAITuberなら候補
TinyTTS
概要:1.6Mパラメータ、CPUで非常に高速
AITuber用途での見方:英語のみ。軽量英語音声の検証向け
Voxtral-TTS
概要:Mistral系、9言語、20 voice
AITuber用途での見方:VRAM 16GB以上、非商用ライセンス
F5-TTS
概要:ゼロショット音声クローニング
AITuber用途での見方:モデル重みが非商用。日本語は別チェックポイントが必要
Dia
概要:英語のマルチスピーカー対話TTS
AITuber用途での見方:英語AITuberや会話音声の生成に面白い
Kyutai-TTS
概要:英語/フランス語、ストリーミングTTS
AITuber用途での見方:日本語非対応。海外向け用途
Pocket-TTS
概要:GPU不要、CPUで動作。100Mパラメータ、約6x realtime
AITuber用途での見方:日本語非対応だが、軽量オンデバイスTTSとして有力
Spark-TTS
概要:英語/中国語、声・ピッチ・速度制御
AITuber用途での見方:日本語非対応、重みは非商用
まとめ
オープンウェイトなローカルTTSは、ここ数年で一気に選択肢が増えています。
日本語だけを見ても、Kokoro、Irodori-TTS、Piper-Plus、Qwen3-TTS、VoxCPM2、Chatterbox、Zonos、OuteTTS、CosyVoice2、Sarashina-TTSなど、かなり多様な候補があります。
AITuber開発者にとっては、音声合成エンジンを自由に差し替えられることがなにより大きな強みになるかと思うので、気になったものがあれば動かしてみることをおすすめします。
なお、各TTSの対応言語、ライセンス、商用利用可否、必要VRAMなどは更新される可能性があります。
この記事の内容は2026年5月4日時点の確認内容であり、実際に利用する場合は各モデルカード、README、ライセンス本文を必ず確認してください。
それでは、良きAITuberライフを!


コメント