【2026年版】AITuber開発者向けローカルTTS 10選！手元で動かせるオープンウェイト音声エンジンまとめ

AITuber OnAir

2026年5月4日 15:29

AITuber開発で使いやすいローカルTTSを紹介！

AITuberを作るとき、LLMやアバター素材、配信画面と同じくらい重要になるのが「声」です。

音声合成エンジンはクラウドAPIを使う方法もありますが、最近はローカル環境やGoogle Colab上で動かせるオープンウェイトのTTSもかなり増えてきました。

ローカルTTSには、以下のようなメリットがあります。

手元やColab上で検証できる
APIの従量課金を気にせず試しやすい
OpenAI互換APIにしておくと既存アプリへ組み込みやすい
音声クローン、話者切り替え、多言語対応などを比較しやすい

一方で、GPUが必要だったり、ライセンス上商用利用できなかったり、Colabでは依存関係が厳しいものもあります。

そこで今回は、以下のリポジトリで検証しているローカルTTSの中から、AITuber開発者が知っておくと便利なものを中心に紹介します。

URL: https://github.com/shinshin86/local-tts-on-google-colab
対応TTSの一覧はREADMEに記載しています。日本語にも対応。

このリポジトリでは、選択したTTSエンジンをGoogle Colab上で起動し、OpenAI互換の `/v1/audio/speech` エンドポイントとして一時的に使えるようにしています。

検証や比較がしやすいように作っているため、まずは「どのTTSが自分のAITuberに合うか」を試す用途に向いています。

ちなみにAPI系の音声エンジン・TTSについて知りたい方は別途記事でまとめているので、そちらをご覧ください。

用途別おすすめ（サクッと知りたい人向け）

Irodori-TTS

特徴：日本語向け。48kHz出力で高音質
まず試したい用途：固定キャラクターボイスの日本語AITuber

Piper-Plus

特徴：日本語対応の軽量TTS。GPU不要でCPUでも高速。WASM版もあり、ブラウザ内動作にも向く
まず試したい用途：ローカル常時起動や低コストな日本語音声

Kokoro

特徴：日本語・英語・中国語などに対応。設定がシンプルで試しやすい
まず試したい用途：まずOpenAI互換TTSを動かす初期検証

Qwen3-TTS

特徴：日本語を含む10言語、9種類のボイス、Apache 2.0
まず試したい用途：多言語・高品質なAITuber音声

VoxCPM2

特徴：30言語対応。声デザイン、音声クローン、言語自動検出
まず試したい用途：キャラクター声の作り込みや多言語検証

Chatterbox

特徴：23言語対応。比較的軽めのGPUで音声クローン可能、MIT
まず試したい用途：音声クローンを使ったキャラクター作成

Zonos

特徴：日本語を含む5言語。ゼロショット音声クローン、Apache 2.0
まず試したい用途：日本語対応と音声クローンの両方を試す

OuteTTS

特徴：CPU / GPU両対応。0.6BはApache 2.0、1Bは非商用
まず試したい用途：GPUなしで多言語・音声クローンを試す

CosyVoice2

特徴：日本語を含む9言語。cross-lingual音声クローン対応
まず試したい用途：多言語キャラクターや声色固定の検証

Sarashina-TTS

特徴：日本語中心の高品質TTS。音声クローン対応、非商用
まず試したい用途：研究・個人検証で日本語品質を比較

今回紹介するローカルTTS

今回詳しく紹介するのは、以下の10個です。

Irodori-TTS
Piper-Plus
Kokoro
Qwen3-TTS
VoxCPM2
Chatterbox
Zonos
OuteTTS
CosyVoice2
Sarashina-TTS

いずれもリポジトリ内でColab動作確認済みのTTSです。

ただし、GPU必須のもの、ライセンス上商用利用不可のもの、音声クローン利用時に本人同意が必要なものがあります。

実際に使う場合は、各モデル・各音声の最新ライセンスを必ず確認してください。

Irodori-TTS

Irodori-TTSは、日本語向けのTTSです。

このリポジトリでは、デフォルトでHugging Faceの `Aratako/Irodori-TTS-500M-v2` モデルを使用します。出力は48kHzで高音質です。

「日本語のオープンウェイトTTSをローカルで試したい」という場合に分かりやすい選択肢です。AITuber用途では、固定のキャラクターボイスで自然な日本語を話させたい場合に候補になります。

開発者向けのポイントは以下です。

対応言語：日本語
Colab動作：動作OK
デフォルトモデル：`Aratako/Irodori-TTS-500M-v2`
出力：48kHz
voice切り替え：なし
ライセンス：コード・重みともMIT
注意点：なりすまし・ディープフェイク生成を禁止する倫理規定あり

Piper-Plus

Piper-Plusは、Piperをベースに日本語対応を強化した軽量TTSです。

元のPiperから、日本語品質、OpenJTalk、プロソディ処理、GPLフリーのMITライセンスという方向で強化されています。

このリポジトリでは、デフォルトモデルとして `tsukuyomi` を使います。
日本語女性音声で、GPU不要、CPUでも高速に動くため、ローカル環境でAITuberの音声応答を試すにはかなり現実的な選択肢です。

「GPUを使わず、まず軽く日本語音声を出したい」という人に向いています。

開発者向けのポイントは以下です。

対応言語：日本語 / 英語 / 中国語 / スペイン語 / フランス語 / ポルトガル語など。G2Pとしては8言語対応、学習済みモデルは6言語。
Colab動作：動作OK
GPU：不要
デフォルトモデル：`tsukuyomi`
ライセンス：コード・重みともMIT
向いている用途：CPU環境での日本語AITuber、低コストな常時起動検証

ちなみに私自身、『Chrome on AITuber』というChrome内で動くAITuber配信ツールで、こちらのWASM版を利用させていただいてますが、完全にブラウザ内で完結して動作してくれています！

Kokoro

Kokoroは、日本語・英語・中国語などに対応した軽量TTSです。

このリポジトリでは、デフォルト音声として日本語の `jf_alpha` を使う設定になっており、フォームから9種類のvoiceを選べます。

ローカルTTSをまず触ってみたい場合に、最初の候補としてかなり扱いやすいエンジンです。Colab上でも動作確認できており、複雑な参照音声や話者設定を用意しなくても、テキストを渡してすぐ音声合成を試せます。

AITuber開発では、まずチャット応答を音声化する最小構成を作りたいときに向いています。

開発者向けのポイントは以下です。

対応言語：日本語 / 英語 / 中国語ほか
Colab動作：動作OK
voice：`jf_alpha` など9種類
ライセンス：コード・重みともApache 2.0
向いている用途：まずローカルTTSを試す、AITuberの音声出力の初期検証

Qwen3-TTS

Qwen3-TTSは、Qwen系の多言語高品質TTSです。

日本語を含む10言語に対応し、CustomVoiceモデルでは9種類のボイスを使えます。このリポジトリでは、デフォルトで軽量な0.6Bモデルを使い、必要に応じて1.7Bモデルも選べる構成です。

GPUランタイムが必要ですが、多言語対応と品質を重視する場合にはかなり有力な候補です。日本語AITuberだけでなく、英語・中国語なども含めた多言語キャラクターを作りたい場合に試す価値があります。

開発者向けのポイントは以下です。

対応言語：日本語 / 英語 / 中国語など10言語
Colab動作：動作OK、GPU必須
モデル：0.6B / 1.7B
ボイス：9種類
ライセンス：コード・重みともApache 2.0
向いている用途：多言語AITuber、高品質な音声応答

VoxCPM2

VoxCPM2は、OpenBMBの高品質TTSです。

2Bパラメータのモデルで、日本語を含む30言語に対応しています。言語の自動検出、ゼロショットTTS、声デザイン、音声クローニングなど、かなり多機能なエンジンです。

AITuber用途では、キャラクターの声を細かく作りたい場合や、多言語対応を視野に入れた音声エンジンを検証したい場合に向いています。

一方でGPUが必要で、リポジトリ上ではT4以上、VRAMはおよそ8GB程度が目安とされています。

開発者向けのポイントは以下です。

対応言語：日本語 / 英語 / 中国語など30言語
Colab動作：動作OK、GPU必須
必要VRAM目安：約8GB
特徴：言語自動検出、ゼロショットTTS、声デザイン、音声クローニング
ライセンス：コード・重みともApache 2.0
向いている用途：多言語AITuber、キャラクター声の実験

Chatterbox

Chatterboxは、Resemble AIの多言語TTSです。

Chatterbox Multilingualモデルは、日本語・英語・中国語・フランス語・ドイツ語・スペイン語・韓国語など23言語に対応しています。ゼロショット音声クローンにも対応しており、参照音声を指定すると `clone` voice が使えるようになります。

GPU推奨ですが、必要VRAMの目安は約2〜4GBと比較的軽めです。ライセンスもコード・重みともMITのため、実用候補として検討しやすいTTSです。

AITuber開発では、キャラクターの声色を参照音声で作りたい場合に有力です。

生成音声にはResemble AIのPerThウォーターマークが含まれます。
音声クローンを使う場合は、必ず本人の同意がある音声、または自分が権利を持つ音声のみを使ってください。

開発者向けのポイントは以下です。

対応言語：日本語 / 英語 / 中国語など23言語
Colab動作：動作OK、GPU推奨
必要VRAM目安：約2〜4GB
voice：`default` / `clone`
ライセンス：コード・重みともMIT
向いている用途：音声クローン、多言語キャラクター、商用も視野に入れた検証

Zonos

Zonosは、英語・日本語・中国語・フランス語・ドイツ語に対応した多言語TTSです。

ゼロショット音声クローニングに対応しており、デフォルトでは上流に同梱されている参照音声を使います。独自の参照音声を渡すことで `clone` voice も使えます。

このリポジトリでは、ポータビリティを重視して `Zyphra/Zonos-v0.1-transformer` をデフォルトにしています。

今回紹介しているリポジトリ内のColab構成ではGPU必須で、VRAM 6GB以上が目安です。
上流実装としてはCPU実行も可能ですが、かなり遅いため、対話用途ではGPU前提と考えるのが現実的です。

日本語対応、音声クローン対応、Apache 2.0という点で、AITuber開発の候補としてかなりバランスが良いTTSです。

開発者向けのポイントは以下です。

対応言語：英語 / 日本語 / 中国語 / フランス語 / ドイツ語
Colab動作：動作OK。このリポジトリの構成ではGPU必須
必要VRAM目安：6GB以上
音声クローン：対応
ライセンス：コード・重みともApache 2.0
注意点：`espeak-ng` が必要

OuteTTS

OuteTTSは、日本語を含む多言語に対応した軽量TTSです。

モデルサイズは `0.6B` と `1B` があり、バックエンドも `HF` と `LLAMACPP` を選べます。このリポジトリでは、デフォルトで商用利用しやすい `0.6B` を使います。

大きな特徴は、CPU / GPUの両方で動作することです。日本語を発話させる場合は、日本語の参照音声から `clone` でspeaker profileを作るのが推奨されています。

AITuber開発では、GPUがない環境でも音声クローンや多言語TTSを試したい場合に候補になります。

開発者向けのポイントは以下です。

対応言語：0.6Bは14言語、1Bは23言語。日本語 / 英語 / 中国語などに対応
Colab動作：動作OK
GPU：CPU / GPU両対応
モデル：0.6B / 1B
音声クローン：対応
0.6Bライセンス：コード・重みともApache 2.0、商用利用OK
1Bライセンス：重みはCC-BY-NC-SA-4.0で、Llama 3.2 Community Licenseも関係します。商用利用は不可

商用利用を考えている場合は、まず `0.6B` を選ぶのが安全です。

CosyVoice2

CosyVoice2は、Alibaba FunAudioLLMの多言語ゼロショット音声クローンTTSです。

`FunAudioLLM/CosyVoice2-0.5B` は、日本語・英語・中国語・韓国語・ドイツ語・スペイン語・フランス語・イタリア語・ロシア語の9言語に加え、中国方言にも対応しています。

Cross-lingualなゼロショットクローンが可能で、AITuber開発では「特定の声色で日本語も英語も話したい」といった検証に向いています。

Colabでは上流依存の都合でPython 3.10 venvを使う構成になっています。GPU推奨で、VRAM目安は約4GBです。

開発者向けのポイントは以下です。

対応言語：日本語 / 英語 / 中国語 / 韓国語 / ドイツ語など9言語
Colab動作：動作OK、GPU推奨
必要VRAM目安：約4GB
音声クローン：対応
環境：Python 3.10 venvを使用
ライセンス：コード・重みともApache 2.0
向いている用途：多言語AITuber、音声クローン、商用も視野に入れた検証

Sarashina-TTS

Sarashina-TTSは、SB Intuitionsの日本語中心TTSです。

0.8BパラメータのLLMベースTTSで、日本語と英語に対応しています。ゼロショット音声クローンにも対応しており、日本語TTSの品質検証として非常に気になる存在です。

ColabではGPU必須で、Hugging Face transformersバックエンドではVRAM約6GBが目安です。T4でも動作可能とされています。

ただし、ライセンスはSarashina Model NonCommercial License Agreementです。通常の商用利用は不可で、商用利用する場合はSB Intuitionsへの問い合わせが必要です。
また、生成音声にはSilentCipherの不可聴ウォーターマークが埋め込まれ、規約上これを除去・無効化してはいけません。

そのため、商用AITuberでそのまま使うというより、研究・個人検証・品質比較のために試す候補として考えるのがよいでしょう。

開発者向けのポイントは以下です。

対応言語：日本語 / 英語
Colab動作：動作OK、GPU必須
必要VRAM目安：約6GB
音声クローン：対応
ライセンス：Sarashina Model NonCommercial License Agreement
商用利用：通常不可。商用利用は別途問い合わせ
注意点：SilentCipherウォーターマークの除去禁止

そのほか気になるローカルTTS

上で詳しく紹介したもの以外にも、このリポジトリでは多くのTTSを検証しています。

Piper

概要：軽量で安定したTTS。デフォルトは英語
AITuber用途での見方：ライセンス確認が必要。商用ならvoiceモデル選定に注意

MOSS-TTS-Nano

概要：100Mパラメータ、CPU動作可、多言語
AITuber用途での見方：現状は出力が約2秒で切れるため検証向け

NeuTTS

概要：CPU可、英語/西語/独語/仏語、voice cloning
AITuber用途での見方：日本語非対応。海外向けAITuberなら候補

TinyTTS

概要：1.6Mパラメータ、CPUで非常に高速
AITuber用途での見方：英語のみ。軽量英語音声の検証向け

Voxtral-TTS

概要：Mistral系、9言語、20 voice
AITuber用途での見方：VRAM 16GB以上、非商用ライセンス

F5-TTS

概要：ゼロショット音声クローニング
AITuber用途での見方：モデル重みが非商用。日本語は別チェックポイントが必要

Dia

概要：英語のマルチスピーカー対話TTS
AITuber用途での見方：英語AITuberや会話音声の生成に面白い

Kyutai-TTS

概要：英語/フランス語、ストリーミングTTS
AITuber用途での見方：日本語非対応。海外向け用途

Pocket-TTS

概要：GPU不要、CPUで動作。100Mパラメータ、約6x realtime
AITuber用途での見方：日本語非対応だが、軽量オンデバイスTTSとして有力

Spark-TTS

概要：英語/中国語、声・ピッチ・速度制御
AITuber用途での見方：日本語非対応、重みは非商用

まとめ

オープンウェイトなローカルTTSは、ここ数年で一気に選択肢が増えています。

日本語だけを見ても、Kokoro、Irodori-TTS、Piper-Plus、Qwen3-TTS、VoxCPM2、Chatterbox、Zonos、OuteTTS、CosyVoice2、Sarashina-TTSなど、かなり多様な候補があります。

AITuber開発者にとっては、音声合成エンジンを自由に差し替えられることがなにより大きな強みになるかと思うので、気になったものがあれば動かしてみることをおすすめします。

なお、各TTSの対応言語、ライセンス、商用利用可否、必要VRAMなどは更新される可能性があります。
この記事の内容は2026年5月4日時点の確認内容であり、実際に利用する場合は各モデルカード、README、ライセンス本文を必ず確認してください。

それでは、良きAITuberライフを！

いいなと思ったら応援しよう！

コメントするには、ログインまたは会員登録をお願いします。

【2026年版】AITuber開発者向けローカルTTS 10選！手元で動かせるオープンウェイト音声エンジンまとめ

用途別おすすめ（サクッと知りたい人向け）

Irodori-TTS

Piper-Plus

Kokoro

Qwen3-TTS

VoxCPM2

Chatterbox

Zonos

OuteTTS

CosyVoice2

Sarashina-TTS

今回紹介するローカルTTS

Irodori-TTS

Piper-Plus

Kokoro

Qwen3-TTS

VoxCPM2

Chatterbox

Zonos

OuteTTS

CosyVoice2

Sarashina-TTS

そのほか気になるローカルTTS

Piper

MOSS-TTS-Nano

NeuTTS

TinyTTS

Voxtral-TTS

F5-TTS

Dia

Kyutai-TTS

Pocket-TTS

Spark-TTS

まとめ

いいなと思ったら応援しよう！

コメント

好きな声で好きなセリフを喋らせられるローカルAI「Irodori-TTS」の使い方、日本語特化でローカル動作するので無制限に生成し放題

5つの壁を越えてVoxtral TTSを鳴らした話！MistralオープンソースTTSをWindowsで動かすまでの全記録

【piper-plus】ローカル環境で、つくよみちゃんモデルを試しました。【TTS】

日本語最強クラスの音声生成「Irodori-TTS」｜絵文字で感情まで操れる神ツール

【多様な感情表現】Irodori TTSサンプル＆導入解説✨ゼロショット音声クローニング対応✨

【IrodoriTTS】 もはやナレーターはAIで充分か！？｜ComfyUI

ElevenLabsをローカルで置き換える——オープンソース音声エージェントの全体設計

無料で声が作れる時代が来た！ローカルTTS「VoxCPM2」を試してみた感想と、ローカルAIの優位性について

ノートPCのCPU動作でTTSを色々と動かしてみたので一旦比較まとめ

解説動画の音声をローカルTTSで回している理由

【ローカルAI音声革命】Irodori-TTSがかなりヤバい。日本語音声生成は“絵文字で感情を操る時代”へ

Macの中でAI音声を無料で作れる時代が来た!?Qwen3-TTSを入れてみた話

【はじめてのnote】非力なMacでもIrodori-TTSを使い倒す方法

MioTTS：軽量・高速で雰囲気を寄せられる音声合成モデル

pip install するだけで動く「Ollama for Voice」koelab を作りました

更科TTS（sarashina2.2-tts）を試した──声を選びたいAIの話

「声をテキストで作る時代」が来た——Irodori-TTS（彩りTTS）がヤバすぎる件

絵文字で感情表現ができる合成音声Irodori-TTSを使ってみた

AI音声合成を使いたい人がぶつかる3つの壁 + Voxtral TTSとは何か〜フランス発のオープンソースAI音声合成 + ElevenLabsを超えた？ 公式…

Android TTS engine 開発日記5日目

5秒の音声から自分の声をAIでクローンしてみた【無料・スマホOK・Google Colab・Qwen3-TTS】

すさまじくリアルタイムかつリアルな音声変換VibeVoice-Realtime TTS を試してみました（実際の音声あり）

Mistralが音声AIを無料公開。5秒で声コピー、吹き替え・音声エージェントが作り放題

Irodori-TTSを実際に動かしてみた！感情絵文字で声に表情をつける面白さ【導入編の続き】

Mistral Voxtral TTS完全解説：ElevenLabsを超えたオープンソース音声AIで何が変わるか

自作音声合成のベストプラクティスを探求中

テキスト指示だけで声を作れる日本語TTS「Irodori-TTS VoiceDesign」をMacで試した

【Irodori-TTS】無料で使える高品質な日本語読み上げAIのGUIツール作ってみた話

Gemini 3.1 Flash TTS と MOSS-TTS-NanoとIrodori-TTS-500M-v2で 徹底比較：クラウド最先端TTS vs 軽量オープンソースTTSvsお気に入り

TTS モデル 2 つを試す - “openbmb/VoxCPM2”, “OpenMOSS-Team/MOSS-TTS-Nano-100M”

AITuberチャレンジ

[AI] えーあい音声であそぼう

Mistral AI Voxtral TTS：軽量音声AIの民主化がついに始まった

声は、もうクラウドに送らなくていい。Voxtral TTSが「オープンウェイト×ゼロショットクローニング」で崩した前提

【2026年最新】最強AI音声はどれ？8種類のTTSモデルを徹底比較してみた

Gemini 3.1 Flash TTSって何？動画をつくる人に関係ある話だけまとめました

好きな声で好きなセリフを喋らせられるローカルAI「Irodori-TTS」の使い方、日本語特化でローカル動作するので無制限に生成し放題

5つの壁を越えてVoxtral TTSを鳴らした話！MistralオープンソースTTSをWindowsで動かすまでの全記録

【piper-plus】ローカル環境で、つくよみちゃんモデルを試しました。【TTS】

日本語最強クラスの音声生成「Irodori-TTS」｜絵文字で感情まで操れる神ツール

【多様な感情表現】Irodori TTSサンプル＆導入解説✨ゼロショット音声クローニング対応✨

【IrodoriTTS】 もはやナレーターはAIで充分か！？｜ComfyUI

ElevenLabsをローカルで置き換える——オープンソース音声エージェントの全体設計

【IrodoriTTS】もはやナレーターはAIで充分か！？｜ComfyUI

AI音声合成を使いたい人がぶつかる3つの壁 + Voxtral TTSとは何か〜フランス発のオープンソースAI音声合成 + ElevenLabsを超えた？公式…

すさまじくリアルタイムかつリアルな音声変換VibeVoice-Realtime TTS　を試してみました（実際の音声あり）

Gemini 3.1 Flash TTS と MOSS-TTS-NanoとIrodori-TTS-500M-v2で徹底比較：クラウド最先端TTS vs 軽量オープンソースTTSvsお気に入り

【IrodoriTTS】もはやナレーターはAIで充分か！？｜ComfyUI

AI音声合成を使いたい人がぶつかる3つの壁 + Voxtral TTSとは何か〜フランス発のオープンソースAI音声合成 + ElevenLabsを超えた？公式ベンチマーク結果を読み解く

すさまじくリアルタイムかつリアルな音声変換VibeVoice-Realtime TTS　を試してみました（実際の音声あり）

Gemini 3.1 Flash TTS と MOSS-TTS-NanoとIrodori-TTS-500M-v2で徹底比較：クラウド最先端TTS vs 軽量オープンソースTTSvsお気に入り