(cache)AIVM Generator | AI音声合成モデルファイル生成・編集ツール

🔔 お知らせ

✨ 既存の .aivm/.aivmx のメタデータ（UUID、アイコンなど）はそのままに、モデルデータだけを差し替えられるようになりました！
「各ファイルから新規生成」では新しいモデル UUID・話者 UUID が自動的に作成されますが、
「既存の .aivm/.aivmx ファイルのメタデータを編集」では元の UUID がそのまま保持されます。
AivisSpeech や AivisHub でも、メタデータ編集・モデルデータ差し替えを行う前と同一の音声合成モデルとして認識されます。

🎙️ PC 上の AivisSpeech と連携して、ボイスサンプルを一括生成できるようになりました！
複数のテキストを入力して、音声合成モデル内のすべての話者・スタイルのボイスサンプルを一度に生成できます。
利用するには、あらかじめこの PC で AivisSpeech を起動しておく必要があります。今までボイスサンプルを作るのが面倒でメタデータに設定していなかったという方も、ぜひ一度お試しください！

🔄 ボイスサンプルが WAV から M4A (AAC) 形式に自動変換されるようになりました！
WAV → M4A への変換により、生成後のモデルサイズが最大 10MB 以上削減されています！

💾 以前生成した .aivm/.aivmx ファイルを「既存の .aivm/.aivmx ファイルのメタデータを編集」で選択するだけで、
ボイスサンプルが自動的に WAV から M4A (AAC) 形式に変換されるようになりました！
モデルサイズを簡単に削減できますので、以前音声合成モデルを制作された方もぜひ一度お試しください！🙏

⚠️ Style-Bert-VITS2 で作成した Safetensors モデルを ONNX に変換する機能はもうしばらくお待ちください！8月中に実装予定です。

このサイトでは、AivisSpeech や Aivis Cloud API で使える AI 音声合成モデルファイル (AIVM / AIVMX) を、簡単に作成・編集できます。

AIVM (Aivis Voice Model) / AIVMX (Aivis Voice Model for ONNX) は、学習済みモデル・ハイパーパラメータ・スタイルベクトル・話者メタデータ（名前・概要・ライセンス・アイコン・ボイスサンプルなど）を 1 つのファイルにギュッとまとめた、AI 音声合成モデル用オープンファイルフォーマットです。

この AIVM Generator では、ブラウザ上の GUI で AIVM / AIVMX ファイルを生成・編集できます。
もちろん、既存の AIVM / AIVMX ファイル内の AIVM メタデータの確認・編集にも対応しています。
すべての処理はブラウザ上で行われます。入力情報がサーバーにアップロードされることはありません。

aivmlib / aivmlib-web では、AIVM / AIVMX ファイル内のメタデータを読み書きするための Python / JavaScript (Web) 向けユーティリティライブラリを提供しています。詳しくは AIVM Specification をご参照ください。

1. ファイル選択

ファイル選択フォームへのドラッグ&ドロップ、またはクリックでファイルを選択できます。
現時点では、Style-Bert-VITS2 で作成した音声合成モデルにのみ対応しています。

AIVM / AIVMX ファイルを生成するには、Safetensors (→ AIVM) 形式のモデルファイルだけでなく、ONNX (→ AIVMX) 形式のモデルファイルも必要です。
AIVM / AIVMX ファイルのメタデータの整合性を保つため、両方のファイルを同時に生成・編集する仕様となっています。

Style-Bert-VITS2 で作成した Safetensors モデルはあるが、ONNX モデルをお持ちでない場合、下のフォームからかんたんに変換できます。
「変換開始」ボタンを押すと、モデルファイルが変換サーバーに送信され、変換処理が始まります。変換には数分程度かかります。
変換が完了すると、ONNX モデルが自動的にダウンロードされます。変換後にサーバー上のファイルは直ちに削除されますので、ご安心ください。
※現在開発中につきまだ動作しません（2025年8月中に実装予定）。今すぐ Style-Bert-VITS2 で作成したモデルを ONNX に変換したい方は最新の dev ブランチに切り替えた上でこちらの ONNX 変換スクリプトをご利用ください（デベロッパー向け）。

学習済みモデル (.safetensors) を選択

ハイパーパラメータ (config.json) を選択

スタイルベクトル (style_vectors.npy) を選択

学習済みモデル (.safetensors) を選択

ONNX モデル (.onnx) を選択

ハイパーパラメータ (config.json) を選択

スタイルベクトル (style_vectors.npy) を選択

2. メタデータ編集

ここで設定したメタデータは、AIVM / AIVMX ファイル内に埋め込まれる AIVM マニフェストに反映されます。

音声合成モデル・話者の UUID は自動生成されます。再度 AIVM / AIVMX ファイルのメタデータを編集しても UUID は変更されません。

音声合成モデルの名前 (最大 80 文字 / 単独話者モデルでは話者名と自動同期されます)

制作者名には npm package.json の "author", "contributors" に指定できるものと同じ書式を利用できます。
例: "John Doe" / "Jane Doe <jane.doe@example.com>" / "John Doe <john.doe@example.com> (https://example.com)"

音声合成モデルの簡潔な説明 (最大 140 文字 / 省略可)

ACML (Aivis Common Model License) のライセンス文を確認する
ACML / ACML-NC は、音声合成モデルの自由な利用を促進しながら、制作者と利用者の双方にとって安心して活用できる環境を実現することを目指して策定されたライセンスです。

AIVM マニフェストバージョン (読み取り専用)

音声合成モデルのアーキテクチャ (読み取り専用)

音声合成モデルのエポック数 (省略可)

音声合成モデルのステップ数 (省略可)

音声合成モデルの UUID (読み取り専用)

音声合成モデルのバージョン

同じ音声合成モデルを更新する際は、バージョンを上げることを推奨します。SemVer 2.0 形式のバージョンを入力してください。

話者の名前 (最大 80 文字 / 単独話者モデルではモデル名と自動同期されます)

話者の UUID (読み取り専用)

話者のローカル ID (読み取り専用)

スタイルの名前 (最大 20 文字)

スタイルのローカル ID (読み取り専用)

ボイスサンプル

3つほどボイスサンプルを追加しておくことを推奨します。このノーマルスタイルのボイスサンプルはこの話者全体のボイスサンプルとしても使われます。

ハイパーパラメータ (読み取り専用)

3. AIVM / AIVMX ファイルを生成

AivisSpeech での音声合成には AIVMX (.aivmx) 形式を、モデルミックスや開発には AIVM (.aivm) 形式をご利用ください。

AIVM (.aivm): モデルミックスによる新しい声質の作成やファインチューニングが可能な形式です。
- おもに NVIDIA GPU での利用に特化しています。(PyTorch + Safetensors モデル)
- GPU で高速に音声合成を行うため、Aivis Cloud API の内部では AIVM ファイルを使用しています。
AIVMX (.aivmx): より多くの環境で音声合成を実行できる形式です。
- CPU だけでも快適に音声合成を実行できます。やろうと思えば Web ブラウザでも動かせます。(ONNX モデル)
- Windows では AMD Radeon / Intel Arc GPU でも高速に動作します。
- AivisSpeech はインストールサイズを削減するため、AIVMX ファイルにのみ対応しています。